丛书 属国 AN NinNs 


[ 美 ] :Eyal 


[ET 和 Clieielel[= 和 和 四 智能 研究 员 
stelle kOe 了 E 寺 度 学 习 领 域 力 作 


全 让 当 二 WE 寺 y 呆 寺村 机 器 学 习 和 深度 
学 习 核 心思 想 的 直觉 








POSTS & TELECOM PRESS 


| 工 信 忠 版 集团 委 人 民 邮 电 出 版 社 


弗 朗 索 瓦 。 肖 莱 ( Francois Chollet ) 
Keras 之 父 ，TensorFlow 机 器 学 习 框架 
贡献 者 ，Kaggle 竞 赛 教练 ， 个 人 Kaggle 
竞赛 全 球 排名 曾 获 得 第 17 名 。 目 前 任职 于 
Google， 从 事 人 工 智 能 研究 ， 尤 其 关注 
计算 机 视觉 与 机 器 学 习 在 形式 推理 方面 的 
应 用 。 


张 亮 (hysic ) 

毕业 于 北京 大 学 物理 学 院 ， 爱 好 机 器 学 习 和 
数据 分 析 的 核 安 全 工程 师 ,， 译 有 《Python 数 
据 处 理 》《 Python 机 器 学 习 基 础 教程 》 等 。 


效 字 有 版权 声明 


图 灵 社 区 的 电子 书 没有 采用 专 有 客 
户 端 ， 您 可 以 在 任意 设备 上 ， 用 自 
己 喜 欢 的 浏览 器 和 PDF 阅读 器 进行 
阅读 。 

但 您 购买 的 电子 书 仅 供 您 个 人 使 用 ， 
未 经 授权 ， 不 得 进行 传播 。 

我 们 愿意 相信 读者 具有 这 样 的 良知 
和 觉悟 ， 与 我 们 共同 保护 知识 产权 。 


如 果 购 买 者 有 侵权 行为 ， 我 们 可 能 
对 该 用 户 实 施 包括 但 不 限于 关闭 该 
帐号 等 维权 措施 ， 并 可 能 追究 法 律 
责任 。 


ER 国 录 程 启 设计 愉 书 


Deep Learning with Python 
四 * Bh 
Python 深 度 学 习 


[ 美 ] 弗 朗 索 瓦 ， 肖 莱 车 


张 亮 译 


人 人民 邮 电 出 版 社 
北 京 


图 书 在 版 编目 4C I P ) 数据 


0 / ( 美 ) 弗 朗 索 瓦 。 肖 莱 著 ; 张 亮 
译 . -- 北京 : 人 民 邮 电 出 版 社 ，2018. 8 

(图 灵 程 序 设计 从 书 ) 

ISBN 978-7-115-48876-3 


TI，G@P… II，@ 弗 … @ 张 … II， 外 软件 工具 一 程序 
设计 IV. GOTP311. 561 


中 国 版 本 图 书馆 CIP 数 据 核 字 (2018) 第 155440 号 
























































内 容 提要 


本 书 由 Keras 之 父 、 现 任 Congl 人 工 智能 研究 员 的 弗 朗 索 瓦 。 肖 莱 (Francois Chollet ) 执笔 详尽 介 
绍 了 用 Python 和 Keras 进行 深度 学 习 的 探索 实践 ， 涉 及 计算 机 视觉 、 自 然 语言 处 理 、 生 成 式 模 型 等 应 用 。 
书 中 包含 30 多 个 代码 示例 ， 步 又 讲解 详细 透彻 。 由 于 本 书 立 足 于 人 工 智能 的 可 达 性 和 大 众 化 ， 读 者 无 须 
具备 机 器 学 习 相 关 背 景 知 识 即 可 展开 阅读 。 在 学 习 完 本 书后 ， 读 者 将 具备 搭建 自己 的 深度 学 习 环境 、 建 立 
图 像 识别 模型 、 se E 力 。 

本 书 适 合 从 事 大 数据 及 机 器 学 习 领 域 工作 ， 并 对 深度 学 习 感 兴趣 的 各 类 读者 。 
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你 拿 起 这 本 书 的 时 候 ， 可 能 已 经 知道 深度 学 习 近 年 来 在 人 工 智能 领域 所 取得 的 非凡 进展 。 
在 图 像 识 别 和 语音 转录 的 任务 上 ， 五 年 前 的 模型 还 几乎 无 法 使 用 ， 如 今 的 模型 的 表现 已 经 超越 
了 人 类 。 

这 种 突飞猛进 的 影响 几乎 蔓延 到 所 有 行业 。 但 是 ， 想 要 将 深度 学 习 技术 部 署 到 它 能 解决 的 
所 有 问题 上 ， 就 需要 让 尽 可 能 多 的 人 接触 这 门 技术 ， 其 中 包括 非 专家 ， 即 既 不 是 研究 人 员 也 不 























是 研究 生 的 那些 人 。 想 要 让 深度 学 习 充 分 发 挥 其 全 部 潜能 ， 就 需要 彻底 推广 给 大 众 。 








2015 年 3 月 ,我 发 布 了 Keras 深度 学 习 框 架 的 第 一 版 ， 当 时 还 没有 想 过 人 工 智 能 的 大 众 化 。 
我 在 机 器 学 习 领 域 已 经 做 了 多 年 的 研究 ,创造 Keras 是 为 了 帮 我 自己 做 实验 。 但 在 2015 一 2016 年 ， 
数 万 名 新 人 进入 了 深度 学 习 领 域 ， 其 中 很 多 人 都 选择 了 Keras， 因 为 它 是 最 容易 上 手 的 框架 〈 现 
在 仍然 是 ) 看 到 大 量 新 人 以 意 想 不 到 的 强大 方式 使 用 Keras， 我 开始 密切 关注 人 工 智能 的 可 达 





Keras 




















性 和 大 众 化 。 我 意识 到 ， 这 些 技术 传播 得 越 广 ， 就 会 变 得 越 有 用 、 越 有 价值 。 可 达 性 很 快 成 为 





开发 过 程 中 的 一 个 明确 目标 ， 在 短 短 几 年 内 ，Keras 开发 者 社区 已 经 在 这 方面 取得 了 了 不 


起 的 成 就 。 我 们 让 数 万 人 掌握 了 深度 学 习 ， 他 们 反 过 来 用 这 些 技术 来 解决 那些 重要 的 问题 ， 而 


我 们 是 最 近 才 知道 这 些 问题 的 。 








你 手 里 拿 的 这 本 书 ， 也 是 为 了 让 尽 可 能 多 的 人 能 够 使 用 深度 学 习 而 写 的 。Keras 一 直 需 要 一 


























个 配套 教程 ， 同 时 涵盖 深度 学 习 的 基础 知识 、Keras 使 用 模式 以 及 深度 学 习 的 最 佳 实践 。 本 书 是 








我 尽 最 大 努力 制作 的 这 么 一 本 教程 。 本 书 的 重点 是 用 尽 可 能 容易 理解 的 方式 来 介绍 深度 学 习 背 





后 的 


既 念 及 其 实现 。 我 这 么 做 没有 贬低 任何 事情 的 意思 ,我 坚信 深度 学 习 中 没有 难以 理解 的 东西 。 


和 希望 本 书 对 你 有 价值 ， 能 够 帮助 构建 智能 应 用 程序 并 解决 那些 对 你 很 重要 的 问题 。 
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关于 本 书 











本 书 是 为 那些 想 要 从 零 开 始 探索 深度 学 习 的 人 或 想 要 拓展 对 深度 学 习 的 理解 的 人 而 写 的 。 
无 论 是 在 职 的 机 絮 学 习 工 程 师 、 软 件 开发 者 还 是 大 学 生 ， 都 会 在 本 书 中 找到 有 价值 的 内 容 。 

本 书 是 对 深度 学 习 的 实践 探索 ， 避 人 免 使 用 数学 符号 ， 尽 量 用 代码 片段 来 解释 定量 概念 ， 帮 
你 建立 关于 机 器 学 习 和 深度 学 习 核 心思 想 的 直觉 。 

书 中 包含 30 多 个 代码 示例 ， 有 详细 的 注释 、 实 用 的 建议 和 简单 的 解释 。 知 道 这 些 你 就 可 以 
开始 用 深度 学 习 来 解决 具体 问题 了 。 

全 书 代码 示例 都 使 用 Python 深度 学 习 框 架 Keras， 并 用 TensorFlow 作为 后 端 引擎 。Keras 
是 最 受 欢 迎 且 发 展 最 快 的 深度 学 习 框 架 之 一 ， 被 广泛 推荐 为 上 手 次 度 学 习 的 最 佳 工 具 。 

读 完 本 书后 ， 你 将 会 充分 理解 什么 是 深度 学 习 、 什 么 时 候 该 用 深度 学 习 ， 以 及 它 的 局 限 性 。 
你 将 学 到 解决 机 器 学 习 问 题 的 标准 工作 流程 ， 还 会 知道 如 何 解 决 常见 问题 。 你 将 能 够 使 用 Keras 
来 解决 从 计算 机 视觉 到 自然 语言 处 理 等 许多 现实 世界 的 问题 ， 包 括 图 像 识 别 、 时 间 序 列 预测 、 
情感 分 析 、 图 像 和 文字 生成 等 。 
谁 应 该 阅读 这 本 书 

本 书 的 目标 读者 是 那些 具有 Python 编程 经 验 , 并 且 想 要 开始 上 手机 需 学 习 和 深度 学 习 的 人 。 
但 本 书 对 以 下 这 些 读 者 也 都 很 有 价值 。 
口 如 果 你 是 熟悉 机 带 学 习 的 数据 科学 家 ， 你 将 通过 本 书 全 面 掌 握 深度 学 习 及 其 实践 。 深 度 
学 习 是 机 需 学 习 中 发 展 最 快 、 最 重要 的 子 领 域 。 
口 如 果 你 是 想 要 上 手 Keras 框架 的 深度 学 习 专 家 ， 你 会 发 现 本 书 是 市 面 上 最 棒 的 Keras 速 
成 教程 。 
口 如 果 你 是 研究 深度 学 习 的 研究 生 ， 你 会 发 现 本 书 是 对 你 所 受 教 育 的 实践 补充 ， 有 助 于 你 

培养 关于 深度 神经 网 络 的 直觉 ， 还 可 以 让 你 熟悉 重要 的 最 住 实践 。 

有 技术 背景 的 人 ， 即 使 不 经 常 编程 ， 也 会 发 现 本 书 介绍 的 深度 学 习 基 本 概念 和 高 级 概念 非 
第 有 用 。 

使 用 Keras 需要 具有 一 定 的 Python 编程 水 平 。 男 外 ， 熟 悉 Numpy 库 也 会 有 所 帮助 ， 但 并 不 
是 必需 的 。 你 不 需要 具有 机 器 学 习 或 深度 学 习 方 面 的 经 验 ， 本 书包 含 从 头 学 习 所 需 的 必要 基础 
知识 。 你 也 不 需要 具有 高 等 数学 背景 ， 掌 握 高 中 水 平 的 数学 知识 应 该 足以 看 懂 本 书 内 容 。 




























































































2 关于 本 书 


学 习 路 线 图 


本 书 分 为 两 部 分 。 如 果 你 之 前 没有 关于 机 器 学 习 的 经 验 ， 我 强烈 建议 你 先 读 完 第 一 部 分 ， 
然后 再 阅读 第 二 部 分 。 我 们 会 从 简单 示例 讲 起 ， 然 后 再 依次 介绍 越 来 越 先进 的 技术 。 
第 一 部 分 是 对 深度 学 习 的 介绍 ， 给 出 了 一 些 背景 和 定义 ， 还 解释 了 上 手机 需 学 习 和 神经 网 

络 需 要 掌握 的 所 有 概念 。 

口 第 1 昔 介 绍 人 工 智能 、 机 融 学 习 和 座 度 学 习 的 重要 背景 知识 。 

口 第 2 章 介 绍 从 事 深度 学 习 必须 了 解 的 基本 概念 : 张 量 、 张 量 运 算 、 梯 度 下 降 和 反 向 传播 。 

这 一 章 还 给 出 了 本 书 第 一 个 可 用 的 神经 网 络 示例 。 

口 第 3 音 包 括 上 手 神 经 网 络 所 需要 了 解 的 全 部 内 容 : Keras 简介 ， 它 是 我 们 的 首选 深度 学 
习 框 架 ; 建立 自己 的 工作 站 的 指南 ; 三 个 基本 代码 示例 以 及 详细 解释 。 读 完 这 一 章 ， 你 
将 能 够 训练 简单 的 神经 网 络 来 处 理 分 类 任务 和 回归 任务 ， 你 还 将 充分 了 解 训练 过 程 背 后 
发 生 的 事情 。 

口 第 4 章 介 绍 标准 的 机 顺 学 习 工作 流程 。 你 还 会 了 解 常见 的 陷阱 及 其 解决 方案 。 
第 二 部 分 将 深入 介绍 深度 学 习 在 计算 机 视觉 和 自然 语言 处 理 中 的 实际 应 用 。 这 一 部 分 给 出 

了 许多 示例 ， 对 于 在 现实 世界 的 实践 中 过 到 的 深度 学 习 问 题 ， 你 可 以 用 这 些 示例 作为 解决 问题 

的 模板 。 

口 第 5 章 介 绍 了 一 系列 实用 的 计算 机 视觉 示例 ， 重 点 放 在 图 像 分 类 。 

口 第 6 章 介 绍 了 处 理 序列 数据 〈 比如 文本 和 时 间 序 列 ) 的 实用 技术 。 

D 第 7 章 介 绍 了 构建 最 先进 深度 学 习 模 型 的 高 级 技术 。 

口 第 8 音 介 绍 了 生成 式 模型 ， 即 能 够 创造 图 像 和 文本 的 深度 学 习 模 型 ， 它 有 时 会 产生 令 人 

惊讶 的 艺术 效果 。 

口 第 9 童 将 帮 你 巩固 在 本 书 学 到 的 知识 ， 还 会 探讨 深度 学 习 的 局 限 性 及 其 未 来 的 可 能 性 。 


软件 / 硬件 需求 


本 书 所 有 代码 示例 都 使 用 Keras 深度 学 习 框 架 ， 它 是 开源 的 ， 可 以 免费 下 载 。 你 需要 一 台 
安装 了 UNIX 的 计算 机 ， 也 可 以 使 用 Windows， 但 我 不 推荐 后 者 。 附 录 A 将 引导 你 完成 整个 安 
装 过 程 。 

我 还 推荐 你 在 计算 机 上 安装 最 新 的 NVIDIA GPU， 比 如 一 块 TITAN X。 这 不 是 必需 的 , 但 
它 会 让 你 运行 代码 示例 的 速度 快 上 几 倍 ， 让 你 有 更 好 的 体验 。3.3 节 给 出 了 建立 深度 学 习 工 作 站 
的 更 多 信息 。 

如 果 你 没有 已 安装 最 新 NVIDIA GPU 的 本 地 工作 站 ， 那 么 可 以 使 用 云 环 境 ， 特 别 推荐 谷歌 
云 实例 ( 比如 带 有 NVIDIA Tesla K80 扩展 的 nl-standard-8 实例 ) 或 亚马逊 网 络 服务 (AWS ) 的 
GPU 实例 (比如 p2.xlarge 实例 )。 附 录 B 详细 介绍 了 一 套 通过 Jupyter 笔记 本 运行 AWS 实例 的 
云 工 作 流 程 ， 你 可 以 通过 浏览 需 访 问 。 
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源 代码 


本 书 所 有 代码 示例 都 可 以 从 配套 网 站 (https://www.manning.com/books/deep-learning-with- 
python ) 和 GitHub 网 站 ( https://github.com/fchollet/deep-learning-with-python-notebooks ) 上 以 Jupyter 
笔记 本 的 形式 下 载 。 

本 书 论坛 

购买 本 书 英文 版 ?的 读者 还 可 以 免费 访问 由 Manning 出 版 社 运营 的 私有 网 络 论坛 ， 你 可 以 
在 那里 就 本 书 发 表 评论 、 询 问 技术 问题 ， 获 得 来 自作 者 和 其 他 用 户 的 帮助 。 论 坛 地 址 为 https:// 
forums.manning.com/forums/deep-learning-with-python。 你 还 可 以 访问 https://forums.manning.com/ 
forums/about 了 解 关 于 Manning 论坛 和 行为 规则 的 更 多 信息 。 

Manning 承诺 为 读者 提供 一 个 平台 ， 让 读者 之 间 、 读 者 和 作者 之 间 可 以 进行 有 意义 的 对 话 。 
但 这 并 不 保证 作者 的 参与 程度 ， 因 其 对 论坛 的 贡献 完全 是 自愿 的 ( 而且 无 报酬 ) 我们 建议 你 试 
着 问 作者 一 些 有 挑战 性 的 问题 ， 这 样 他 才 会 感 兴趣 ! 只 要 本 书 仍 在 销售 中 ， 你 就 可 以 在 Manning 
网 站 上 访问 论坛 和 存档 的 讨论 记录 。 


电子 书 
扫描 如 下 二 维 码 ， 即 可 购买 本 书 电子 版 。 





























QD 中 文 版 读者 可 登录 图 灵 社 区 本 书页 面 提交 评论 和 勘误 ， 并 下 载 源 代码 : http://www.ituring.com.cn/book/2599。 
一 一 编者 注 
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本 书 封面 搬 画 的 标题 为 “1568 年 一 位 波斯 女士 的 服饰 ”( Habit of a Persian Lady in 1568 )。 
该 图 选 自 Thomas Jefferys 的 《各 国 古 代 和 现代 服饰 集 》( 4 Collection of the Dresses of Different 
Nations, Ancient and Modern， 共 四 卷 ，1757 一 1772 年 出 版 于 伦敦 )。 该 书 剧 页 说 这 些 插画 都 是 手 
工 上 色 的 铜版 画 ， 用 阿拉 伯 树 胶 保 护 。 

Thomas Jefferys (1719 一 1771 ) 被 称 为 “乔治 三 世 国 王 的 地 理学 家 ”。 他 是 英国 的 一 名 地 图 
绘制 员 ， 是 当时 主要 的 地 图 供应 商 。 他 为 政府 和 其 他 官方 机 构 雕 刻 并 印 制 地 图 ， 还 制作 了 大 量 
商业 地 图 和 地 图 集 ， 尤 其 是 北美 地 区 的 。 地 图 制作 人 的 工作 激发 了 他 对 所 调查 和 绘制 地 区 的 当 
地 服饰 民俗 的 兴趣 ， 这 些 都 在 这 套 服饰 集中 有 精彩 展示 。 向 往 遥 远 的 地 方 、 为 快乐 而 旅行 ， 在 
18 世纪 后 期 还 是 相对 新 鲜 的 现象 ， 类 似 于 这 套 服饰 集 的 书 非常 受 欢 迎 ， 它 们 癌 旅 行者 和 是 不 出 
户 的 “游客 ”介绍 其 他 国家 的 居民 。 

Jefferys 书 中 异彩 纷呈 的 插画 生动 地 描绘 了 约 200 年 前 世界 各 国 的 独特 魅力 。 从 那 以 后 ， 着 
装 风格 已 经 发 生变 化 ， 各 个 国家 和 地 区 当时 非常 丰富 的 着 装 多 样 性 也 逐渐 消失 。 来 自 不 同 大 陆 
的 人 ， 现 在 仅 靠 衣着 已 经 很 难 区 分 开 了 。 也 许可 以 乐观 地 来 看 ， 我 们 这 是 用 文化 和 视觉 上 的 多 
样 性 ， 换 来 了 更 为 多 样 化 的 个 人 生活 ， 或 是 更 为 多 样 化 、 更 有 趣 的 精神 生活 和 技术 生活 。 
曾经 ， 计 算 机 书籍 也 很 难 靠 封 面 来 区 分 ，Manning 出 版 社 采 用 了 展示 两 个 世纪 前 各 地 丰富 
多 彩 生活 的 图 书 封面 (Jefferys 的 插画 让 这 些 生活 重新 焕发 生机 )， 以 此 表明 计算 机 行业 的 创造 
性 与 主动 性 。 
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Part J 


深度 学 习 基 础 





本 书 第 1~4 章 将 让 你 对 下 列 内 容 有 基本 的 了 解 : 什么 是 深度 学 习 ， 它 能 取得 哪些 成 就 ， 以 
及 它 的 工作 原理 是 怎样 的 。 你 还 会 熟悉 使 用 深度 学 习 来 解决 数据 问题 的 标准 工作 流程 。 如 果 对 
深度 学 习 不 是 特别 了 解 的 话 ， 你 应 该 先 读 完 第 一 部 分 ， 再 阅读 第 二 部 分 中 的 实际 应 用 。 





本 章 包 括 以 下 内 容 : 

口 基本 概念 的 定义 

口 机 需 学 习 发 展 的 时 间 线 

口 深度 学 习 日 益 流 行 的 关键 因素 及 其 未 来 潜力 














在 过 去 的 几 年 里 ， 人 工 智能 (AI) 一 直 是 媒体 大 肆 炒 作 的 热点 话题 。 机 器 学 习 、 深 度 学 习 
和 人 工 智能 都 出 现在 不 计 其 数 的 文章 中 ， 而 这 些 文章 通常 都 发 表 于 非 技术 出 版 物 。 我 们 的 未 来 
被 描绘 成 拥有 智能 聊天 机 器 人 、 自 动 驾 驶 汽车 和 虚拟 助手 ， 这 一 未 来 有 时 被 泻 染 成 可 怕 的 景象 ， 
有 时 则 被 描绘 为 乌托邦 ， 人 类 的 工作 将 十 分 稀少 ， 大 部 分 经 济 活动 都 由 机 器 人 或 人 工 智 能 体 
(AI agent ) 来 完成 。 对 于 未 来 或 当前 的 机 融 学 习 从 业者 来 说 ,重要 的 是 能 够 从 噪声 中 识别 出 信号 ， 
从 而 在 过 度 炒 作 的 新 闻 稿 中 发 现 改变 世界 的 重大 进展 。 我 们 的 未 来 充满 风险 ， 而 你 可 以 在 其 中 
发 挥 积极 的 作用 : 读 完 本 书后 ， 你 将 会 成 为 人 工 智 能 体 的 开发 者 之 一 。 那 么 我 们 首先 来 回答 下 
列 问题 : 到 目前 为 止 ， 深度 学 习 已 经 取得 了 哪些 进展 ?深度 学 习 有 多 重要 ? 接 下 来 我 们 要 做 什 
么 ?媒体 炒作 是 否 可 信 ? 

本 章 将 介绍 关于 人 工 智能 、 机 器 学 习 以 及 深度 学 习 的 必要 背景 。 


1.1 人 工 智能、 机 器 学 习 与 深度 学 习 


首先 ， 在 提 到 人 工 智 能 时 ， 我 们 需要 明确 定义 所 讨论 的 内 容 。 什 么 是 人 工 智能 、 机 带 学 习 
与 深度 学 习 ( 见 图 1-1 ) ? 这 三 者 之 间 有 什么 关系 ? 














深度 学 习 





图 1-1 人 工 智能 、 机 器 学 习 与 深度 学 习 





1.1.1 人 工 智能 


人 工 智能 诞生 于 20 世纪 50 年 代 ， 当 时 计算 机 科学 这 一 新 兴 领 域 的 少数 先驱 开始 提出 疑问 : 
计算 机 是 否 能 够 “思考 ”? 我 们 今天 仍 在 探索 这 一 问题 的 答案 。 人 工 智能 的 简洁 定义 如 下 : 努 
力 将 通常 由 人 类 完成 的 智力 任务 自动 化 。 因 此 ， 人 工 智能 是 一 个 综合 性 的 领域 ， 不 仅 包括 机 器 
学 习 与 深度 学 习 ， 还 包括 更 多 不 涉及 学 习 的 方法 。 例如， 早期 的 国际 象棋 程序 仅 包含 程序 员 精 
心 编写 的 人 硬 编 码 规则 ， 并 不 属于 机 器 学 习 。 在 相当 长 的 时 间 内 ， 许 多 专家 相信 ， 只 要 程序 员 精 
心 编写 足够 多 的 明确 规则 来 处 理 知识 ， 就 可 以 实现 与 人 类 水 平 相当 的 人 工 智能 。 这 一 方法 被 称 
为 符号 主义 人 工 智 能 ( symbolic AI )， 从 20 世纪 50 年 代 到 80 年 代 末 是 人 工 智 能 的 主流 范式 。 
在 20 世纪 80 年 代 的 专家 系统 (expert system ) 热潮 中 ， 这 一 方法 的 热度 达到 了 顶峰 。 
虽然 符号 主义 人 工 智 能 适合 用 来 解决 定义 明确 的 逻辑 问题 ， 比 如 下 国际 象棋 ， 但 它 难以 给 
出 明确 的 规则 来 解决 更 加 复杂 、 模 糊 的 问题 ， 比 如 图 像 分 类 、 语 音 识别 和 语言 翻译 。 于 是 出 现 
了 一 种 新 的 方法 来 替代 符号 主义 人 工 智能 ， 这 就 是 机 器 学 习 ( machine learning )。 


1.1.2 ”机 器 学 习 


在 维多利亚 时 代 的 英格兰 ， 埃 达 : 洛 夫 莱 斯 伯 田 夫人 是 查尔斯 巴 贝 奇 的 好 友 兼 合作 者 ， 后 
者 发 明了 分 析 机 (Analytical Engine )， 即 第 一 全 通用 的 机 械 式 计算 机 。 虽 然 分 析 机 这 一 想法 富 
有 远见 ， 并 且 相 当 超 前 ,但 它 在 19 世纪 三 四 十 年 代 被 设计 出 来 时 并 没有 打算 用 作 通 用 计算 机 ， 
因为 当时 还 没有 “通用 计算 ”这 一 概念 。 它 的 用 途 仅仅 是 利用 机 械 操 作 将 数学 分 析 领 域 的 某 些 
计算 自动 化 ， 因 此 得 名 “分 析 机 ”。1843 年 ， 埃 达 ' 洛 夫 莱 斯 们 甸 夫 人 对 这 项 发 明 评论 道 :“ 分 
析 机 谈 不 上 能 创造 什么 东西 。 它 只 能 完成 我 们 命令 它 做 的 任何 事情 …… 它 的 职责 是 帮助 我 们 去 
实现 我 们 已 知 的 事情 。” 

随后 ， 人 工 智 能 先驱 阿兰 .图 灵 在 其 1950 年 发 表 的 具有 里 程 碑 意 义 的 论文 “计算 机 融和 智 
能 ” ”中 ,引用 了 上 述评 论 并 将 其 称 为 “ 洛 夫 莱 斯 伯 珊 夫人 的 异议 ”。 图 灵 在 这 篇 论文 中 介绍 了 图 
灵 测 试 以 及 日 后 人 工 智能 所 包含 的 重要 概念 。 在 引述 埃 达 ' 洛 夫 莱 斯 们 器 夫人 的 同时 ， 图 灵 还 
\ 考 了 这 样 一 个 问题 ; 通用 计算 机 是 否 能 够 学 习 与 创新 ? 他 得 出 的 结论 是 “能 ”。 

机 器 学 习 的 概念 就 来 自 于 图 灵 的 这 个 问题 : 对 于 计算 机 而 言 ， 除 了 “我 们 命令 它 做 的 任何 
事情 ”之 外 ， 它 能 否 自 我 学 习 执行 特定 任务 的 方法 ?计算 机 能 否 让 我 们 大 吃 一 惊 ? 如果 没有 程 
序 员 精 心 编写 的 数据 处 理 规则 ， 计 算 机 能 否 通 过 观察 数据 自动 学 会 这 些 规则 ? 

图 灵 的 这 个 问题 引出 了 一 种 新 的 编程 范式 。 在 经 典 的 程序 设计 〈 即 符号 主义 人 工 智 能 的 
式 ) 中 , 人 们 输入 的 是 规则 〈 即 程序 ) 和 需要 根据 这 些 规 则 进行 处 理 的 数据 , 系统 输出 的 是 答 
( 见 图 1-2 )。 利 用 机 可 学 习 ， 人 们 输入 的 是 数据 和 从 这 些 数据 中 预期 得 到 的 答案 ， 系 统 输 出 的 
规则 。 这 些 规 则 随后 可 应 用 于 新 的 数据 ， 并 使 计算 机 自主 生成 答案 。 
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图 1-2 机 器 学 习 : 一 种 新 的 编程 范式 


机 器 学 习 系 统 是 训练 出 来 的 ， 而 不 是 明确 地 用 程序 编写 出 来 的 。 将 与 某 个 任务 相关 的 许多 
示例 输入 机 器 学 习 系统 ， 它 会 在 这 些 示例 中 找到 统计 结构 ， 从 而 最 终 找到 规则 将 任务 自动 化 。 
举 个 例子 ， 你 想 为 度假 照片 添加 标签 ， 并 且 希 望 将 这 项 任务 自动 化 ， 那 么 你 可 以 将 许多 人 工 打 
好 标签 的 照片 输入 机 器 学 习 系统 ， 系 统 将 学 会 将 照片 与 特定 标签 联系 在 一 起 的 统计 规则 。 

虽然 机 器 学 习 在 20 世纪 90 年 代 才 开 始 莲 勃 发展， 但 它 迅速 成 为 人 工 智能 最 受 欢迎 且 最 成 
功 的 分 支 领域 。 这 一 发 展 的 驱动 力 来 自 于 速度 更 快 的 硬件 与 更 大 的 数据 集 。 机 器 学 习 与 数理 统 
计 密 切 相关 ， 但 二 者 在 几 个 重要 方面 有 所 不 同 。 不 同 于 统计 学 ， 机 器 学 习 经 常用 于 处 理 复杂 的 
大 型 数据 集 ( 比如 包含 数 百 万 张 图 像 的 数据 集 ， 每 张 图 像 又 包含 数 万 个 像素 )， 用 经 典 的 统计 分 
析 ( 比如 贝 叶 斯 分 析 ) 来 处 理 这 种 数据 集 是 不 切实 际 的 。 因 此 ， 机 器 学 习 ( 尤其 是 深度 学 习 ) 
呈现 出 相对 较 少 的 数学 理论 ( 可 能 太 少 了 )， 并 且 是 以 工程 为 导向 的 。 这 是 一 门 需要 上 手 实 践 的 
学 科 ， 想 法 更 多 地 是 靠 实践 来 证 明 ， 而 不 是 靠 理论 推导 。 


1.1.3 ”从 数据 中 学 习 表 示 


为 了 给 出 深度 学 习 的 定义 并 搞 清 楚 深 度 学 习 与 其 他 机 需 学 习 方 法 的 区 别 ， 我 们 首先 需要 知 
道 机 妖 学 习 算 法 在 做 什么 。 前 面 说 过 ， 给 定 包 含 预 期 结果 的 示例 ， 机 器 学 习 将 会 发 现 执行 一 项 
数据 处 理 任务 的 规则 。 因 此 ， 我 们 需要 以 下 三 个 要 素来 进行 机 咒 学 习 。 
口 输入 数据 点 。 例 如 ， 你 的 任务 是 语音 识别 ， 那 么 这 些 数据 点 可 能 是 记录 人 们 说 话 的 声音 
文件 。 如 果 你 的 任务 是 为 图 像 添 加 标签 ， 那 么 这 些 数据 点 可 能 是 图 像 。 
口 预期 输出 的 示例 。 对 于 语音 识别 任务 来 说 ， 这 些 示 例 可 能 是 人 们 根据 声音 文件 整理 生成 
的 文本 。 对 于 图 像 标 记 任务 来 说 ， 预 期 输出 可 能 是 “ 狗 ”“ 猫 ”之 类 的 标签 。 
口 衡量 算法 效果 好 坏 的 方法 。 这 一 衡量 方法 是 为 了 计算 算法 的 当前 输出 与 预期 输出 的 差距 。 
衔 量 结果 是 一 种 反馈 信号 ,用 于 调节 算法 的 工作 方式 。 这 个 调节 步骤 就 是 我 们 所 说 的 学 习 。 
机 器 学 习 模 型 将 输入 数据 变换 为 有 意义 的 输出 ， 这 是 一 个 从 已 知 的 输入 和 输出 示例 中 进行 
“学 习 ” 的 过 程 。 因 此 ， 机 器 学 习 和 深度 学 习 的 核心 问题 在 于 有 意义 地 变换 数据 ， 换 名 话说， 在 
于 学 习 输 入 数据 的 有 用 表示 (representation ) 一 一 这 种 表示 可 以 让 数据 更 接近 预期 输出 。 在 进 一 
步 讨论 之 前 ， 我 们 需要 先 回答 一 个 问题 : 什么 是 表示 ? 这 一 概念 的 核心 在 于 以 一 种 不 同 的 方式 
来 查看 数据 ( 即 表征 数据 或 将 数据 编码 )。 例 如 ， 彩 色 图 像 可 以 编码 为 RGB ( 红 - 绿 - 蓝 ) 格 
式 或 HSV (色相 -饱和 度 - 明度 ) 格式 , 这 是 对 相同 数据 的 两 种 不 同 表 示 。 在 处 理 某 些 任 务 时 ， 
使 用 某 种 表示 可 能 会 很 困难 ， 但 换 用 另 一 种 表示 就 会 变 得 很 简单 。 举 个 例子 ， 对 于 “选择 图 像 









































































































































中 所 有 红色 像素 ”这 个 任务 , 使 用 RGB 格式 会 更 简单 , 而 对 于 " 降 ?| ee 。 
低 图 像 折 和 度 ”这 个 任务 ,使 用 HSV 格式 则 更 简单 。 机 器 学 习 模 型 a 
都 是 为 输入 数据 寻找 合适 的 表示 一 一 对 数据 进行 变换 ， 使 其 更 适合 i 
手头 的 任务 比如 分 类 任务 )。 > 
我 们 来 具体 说 明 这 一 点 。 考 虑 x* 轴 、y 轴 和 在 这 个 (坐标 系 ”| oo oo。 
中 由 坐标 表示 的 一 些 点 ， 如 图 1-3 所 示 。 O 
可 以 看 到 ,图 中 有 一 些 白 点 和 一 些 黑 点 。 假 设 我 们 想 要 开发 一 























个 算法 ， 输入 一 个 点 的 坐标 (x, y)， 就 能 够 判断 这 个 点 是 黑色 还 是 白 。 图 1-3 一 些 样本 数据 
色 。 在 这 个 例子 中 : 
口 输入 是 点 的 坐标 ; 
口 预期 输出 是 点 的 颜色 ; 
口 衡量 算法 效果 好 坏 的 一 种 方法 是 ， 正 确 分 类 的 点 所 占 的 百分比 。 

这 里 我 们 需要 的 是 一 种 新 的 数据 表示 ， 可 以 明确 区 分 白 点 与 黑 点 。 可 用 的 方法 有 很 多 ， 这 
里 用 的 是 坐标 变换 ， 如 图 1-4 所 示 。 




















(GD 原始 数据 (2) 坐标 变换 G3) 更 好 的 数据 表示 
» 





1-4 坐标 变换 


在 这 个 新 的 坐标 系 中 ， 点 的 坐标 可 以 看 作 数 据 的 一 种 新 的 表示 。 这 种 表示 很 棒 ! 利用 这 种 
新 的 表示 ， 用 一 条 简单 的 规则 就 可 以 描述 黑 / 白 分 类 问题 “x>0 的 是 黑 点 ”或 “x<0 的 是 白 点 ”。 
这 种 新 的 表示 基本 上 解决 了 该 分 类 问题 。 

在 这 个 例子 中 ,我们 人 为 定义 了 坐标 变换 。 但 是 ， 如 果 我 们 尝试 系统 性 地 搜索 各 种 可 能 的 
坐标 变换 ， 并 用 正确 分 类 的 点 所 占 百分比 作为 反馈 信号 ， 那 么 我 们 做 的 就 是 机 带 学 习 。 机 带 学 
习 中 的 学 习 指 的 是 ， 寻 找 更 好 数据 表示 的 自动 搜索 过 程 。 

所 有 机 器 学 习 算 法 都 包括 自动 寻找 这 样 一 种 变换 : 这 种 变换 可 以 根据 任务 将 数据 转化 为 更 加 
有 用 的 表示 。 这 些 操作 可 能 是 前 面 提 到 的 坐标 变换 ,也 可 能 是 线性 投影 〈 可 能 会 破坏 信息 ) 平 移 、 
非 线性 操作 〈 比如 “选择 所 有 x>0 的 点 ”)， 等 等 。 机 央 学 习 算 法 在 寻找 这 些 变换 时 通常 没有 什么 
创造 性 ， 而 仅仅 是 遍历 一 组 预先 定义 好 的 操作 ， 这 组 操作 叫 作 假设 空间 (hypothesis space )。 

这 就 是 机 器 学 习 的 技术 定义 : 在 预先 定义 好 的 可 能 性 空间 中 ， 利 用 反馈 信和 号 的 指引 来 寻找 
输入 数据 的 有 用 表示 。 这 个 简单 的 想法 可 以 解决 相当 多 的 智能 任务 ， 从 语音 识别 到 自动 驾驶 都 
能 解决 。 












































6 第 1 章 什么 是 深度 学 习 





现在 你 理解 了 学 习 的 含义 ， 下 面 我 们 来 看 一 下 深度 学 习 的 特殊 之 处 。 
1.1.4 深度 学 习 之 “深度 ” 


深度 学 习 是 机 带 学 习 的 一 个 分 支 领域 : 它 是 从 数据 中 学 习 表示 的 一 种 新 方法 ， 强 调 从 连续 
的 层 ( layer ) 中 进行 学 习 ， 这 些 层 对 应 于 越 来 越 有 意义 的 表示 。 “深度 学 习 ” 中 的 “深度 ” 指 
的 并 不 是 利用 这 种 方法 所 获取 的 更 深层 次 的 理解 ， 而 是 指 一 系列 连续 的 表示 层 。 数 据 模型 中 
包含 多 少 层 ， 这 被 称 为 模型 的 深度 (depth )。 这 一 领域 的 其 他 名 称 包 括 分 层 表 示 学 习 ( layered 
representations learning ) 和 层级 表示 学 习 ( hierarchical representations learning )。 现 代 深 度 学 习 
通常 包含 数 十 个 甚至 上 百 个 连续 的 表示 层 ， 这 些 表示 层 全 都 是 从 训练 数据 中 自动 学 习 的 。 与 此 
相反 ， 其 他 机 带 学 习 方 法 的 重点 往往 是 仪 仪 学 习 一 两 层 的 数据 表示 ， 因 此 有 时 也 被 称 为 浅 层 学 
习 (shallow learning )。 

在 深度 学 习 中 ， 这 些 分 层 表 示 几 乎 总 是 通过 叫 作 神 经 网 络 (neural network ) 的 模型 来 学 习 
得 到 的 。 神 经 网 络 的 结构 是 逐 层 堆 善 。 神 经 网 络 这 一 术语 来 自 于 神经 生物 学 ， 然而， 虽然 深度 
学 习 的 一 些 核 心 概念 是 从 人 们 对 大 脑 的 理解 中 汲取 部 分 灵感 而 形成 的 ， 但 深度 学 习 模 型 不 是 大 
脑 模 型 。 没 有 证 据 表 明 大 脑 的 学 习 机 制 与 现代 深度 学 习 模 型 所 使 用 的 相同 。 你 可 能 会 读 到 一 些 
流行 科学 的 文 草 ， 宣 称 深度 学 习 的 工作 原理 与 大 脑 相似 或 者 是 根据 大 脑 的 工作 原理 进行 建 模 的 ， 
但 事实 并 非 如 此 。 对 于 这 一 领域 的 新 人 来 说 ， 如 果 认 为 深度 学 习 与 神经 生物 学 存在 任何 关系 ， 
那 将 使 人 困惑 ， 只 会 起 到 反作用 。 你 无 须 那 种 “就 像 我 们 的 头脑 一 样 ” 的 神秘 包装 ， 最 好 也 忘 
掉 读 过 的 深度 学 习 与 生物 学 之 间 的 假想 联系 。 就 我 们 的 目的 而 言 ， 深 度 学 习 是 从 数据 中 学 习 表 
示 的 一 种 数学 框架 。 

深度 学 习 算 法 学 到 的 表示 是 什么 样 的 ? 我 们 来 看 一 个 多 层 网 络 ( 见 图 1-5 ) 如 何 对 数字 图 像 
进行 变换 ， 以 便 识别 图 像 中 所 包含 的 数字 。 
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图 1-5 用 于 数字 分 类 的 深度 神经 网 络 


如 图 1-6 所 示 ， 这 个 网 络 将 数字 图 像 转换 成 与 原始 图 像 差别 越 来 越 大 的 表示 ， 而 其 中 关于 
最 终结 果 的 信息 却 越 来 越 丰富 。 你 可 以 将 座 度 网 络 看 作 多 级 信息 蒸馏 操作 : 信息 穿 过 连续 的 过 
滤器 ， 其 纯度 越 来 越 高 ( 即 对 任务 的 帮助 越 来 越 大 )。 

这 就 是 深度 学 习 的 技术 定义 : 学 习 数 据 表示 的 多 级 方法 。 这 个 想法 很 简单 ， 但 事实 证 明 ， 
非常 简单 的 机 制 如 果 具 有 足够 大 的 规模 ， 将 会 产生 魔法 般 的 效果 。 
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1.1.5 用 三 张 图 理解 深度 学 习 的 工作 原理 
现在 你 已 经 知道 ， 机 器 学 习 是 将 输入 ( 比如 图 像 ) 映射 到 目标 ( 比如 标签 “ 猫 ” )， 这 一 过 
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图 1-6 ”数字 图 像 分 类 模型 学 到 的 深度 表示 

















通过 观察 许多 输入 和 目标 的 示例 来 完成 的 。 你 还 知道 ,深度 神经 网 络 通 过 一 系列 简单 的 数 














据 变 换 ( 层 ) 来 实现 这 种 输入 到 目标 的 映射 ， 而 这 些 数据 变换 都 是 通过 观察 示例 学 习 到 的 。 下 


面 来 


























具体 看 一 下 这 种 学 习 过 程 是 如 何 发 生 的 。 
神经 网 络 中 每 层 对 输入 数据 所 做 的 具体 操作 保存 在 该 层 的 权重 (weight ) 中 ， 











其 本 质 是 一 


串 数字 。 用 术 话 来 说 ， 每 层 实 现 的 变换 由 其 权重 来 参数 化 (parameterize， 见 图 1-7 )。 权 重 有 时 
也 被 称 为 该 层 的 参数 (parameter )。 在 这 种 语 境 下 ， 学 习 的 意思 是 为 神经 网 络 的 所 有 层 找到 一 组 


权重 值 ， 使 得 该 网 络 能 够 将 每 个 示例 输入 与 其 目标 正确 地 一 一 对 应 。 但 重点 来 了 : 一 个 深度 神 
经 网 络 可 能 包含 数 干 万 个 参数 。 找 到 所 有 参数 的 正确 取 值 可 能 是 一 项 非常 艰巨 的 任务 ,特别 是 


考虑 到 修改 某 个 参数 值 将 会 影响 其 他 所 有 参数 的 行为 。 


目标 : 找到 这 些 
权重 的 正确 取 值 


图 1-7 神经 网 络 是 | 
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想 要 控制 一 件 事物 ， 首 先 需 要 能 够 观察 它 。 想 要 控制 神经 网 络 的 输出 ， 
输出 与 预期 值 之 间 的 距离 。 这 是 神经 网 络 损失 函数 (loss function ) 的 任务 ,该 函数 也 叫 目 标 











就 需要 能 够 衡量 该 
函数 (objective function )。 损 失 函 数 的 输入 是 网 络 预测 值 与 真实 目标 值 ( 即 你 希望 网 络 输出 的 
结果 )， 然 后 计算 一 个 距离 值 ， 衡 量 该 网 络 在 这 个 示例 上 的 效果 好 坏 ( 见 图 1-8 )。 
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图 1-8 损失 函数 月 











来 衡量 网 络 输 出 结果 的 质量 
深度 学 习 的 基本 技巧 是 利用 这 个 距离 值 作为 反馈 信号 来 对 权重 值 进行 微调 ， 以 降低 当前 示 
例 对 应 的 损失 值 ( 见 


图 1-9 )。 这 种 调节 由 优化 器 ( optimizer ) 来 完成 ， 它 实现 了 所 谓 的 反 向 
传播 (backpropagation ) 算法 ， 这 是 深度 学 习 的 核心 算法 。 下 一 章 中 会 详细 地 解释 反 向 传播 的 工 
作 原 理 。 
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图 1-9 将 损失 值 作为 反馈 信号 来 调节 权重 
一 开始 对 神 























经 网 络 的 权重 随机 赋值 ， 因 此 网 络 只 是 实现 了 一 系列 随机 变换 。 其 输出 结果 自 
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然 也 和 理想 值 相去 其 远 ， 相 应 地 ， 损 失 值 也 很 高 。 但 随 着 网 络 处 理 的 示例 越 来 越 多 ， 权 重 值 也 
在 向 正确 的 方向 逐步 微调 ， 损 失 值 也 逐渐 降低 。 这 就 是 训练 循环 (training loop )， 将 这 种 循环 重 
复 足 够 多 的 次 数 ( 通常 对 数 和 干 个 示例 进行 数 十 次 迭代 )， 得 到 的 权重 值 可 以 使 损失 函数 最 小 。 具 
有 最 小 损失 的 网 络 ， 其 输出 值 与 目标 值 尽 可 能 地 接近 ， 这 就 是 训练 好 的 网 络 。 再 次 强调 ， 这 是 
一 个 简单 的 机 制 ， 一 旦 具有 足够 大 的 规模 ， 将 会 产生 魔法 般 的 效果 。 


1.1.6 深度 学 习 已 经 取得 的 进展 


虽然 深度 学 习 是 机 咒 学 习 一 个 相当 有 年 尖 的 分 支 领域 , 但 在 21 世纪 前 十 年 才 嘱 起 。 在 随后 
的 几 年 里 ， 它 在 实践 中 取得 了 革命 性 进展 ， 在 视觉 和 听觉 等 感知 问题 上 取得 了 令 人 瞩目 的 成 果 ， 
而 这 些 问题 所 涉及 的 技术 ， 在 人 类 看 来 是 非常 自然 、 非 常 直观 的 ， 但 长 期 以 来 却 一 直 是 机 器 难 
以 解决 的 。 

特别 要 强调 的 是 , 深度 学 习 已 经 取得 了 以 下 突破 ,它们 都 是 机 需 学 习 历 史上 非常 困难 的 领域 : 
口 接近 人 类 水 平 的 图 像 分 类 
口 接近 人 类 水 平 的 语音 识别 
口 接近 人 类 水 平 的 手写 文字 转录 
口 更 好 的 机 器 翻译 
口 更 好 的 文本 到 语音 转换 
口 数字 助理 ， 比 如 谷歌 即时 (Google Now ) 和 亚马逊 Alexa 
口 接近 人 类 水 平 的 自动 驾驶 
口 更 好 的 广告 定向 投放 ，Google 、 百 度 、 必 应 都 在 使 用 
口 更 好 的 网 络 搜索 结 
口 能 够 回答 用 自然 语言 提出 的 问题 
口 在 围棋 上 战胜 人 类 
我 们 仍然 在 探索 深度 学 习 能 力 的 边界 。 我 们 已 经 开始 将 其 应 用 于 机 还 感 知 和 自然 语言 理解 
之 外 的 各 种 问题 ， 比 如 形式 推理 。 如 果 能 够 成 功 的 话 ， 这 可 能 预示 着 次 度 学 习 将 能 够 协助 人 类 
进行 科学 研究 、 软 件 开 发 等 活动 。 


1.1.7 不 要 相信 短期 炒作 


虽然 深度 学 习 近 年 来 取得 了 令 人 了 瞩目 的 成 就 ， 但 人 们 对 这 一 领域 在 未 来 十 年 间 能 够 取得 的 
成 就 似乎 期 望 过 高 。 虽 然 一 些 改变 世界 的 应 用 ( 比如 自动 驾驶 汽车 ) 已 经 触手 可 及 ,但 更 多 的 
应 用 可 能 在 长 时 间 内 仍然 难以 实现 ， 比 如 可 信 的 对 话 系统 、 达 到 人 类 水 平 的 跨 任 意 语言 的 机 器 
翻译 、 达 到 人 类 水 平 的 自然 语言 理解 。 我 们 尤其 不 应 该 把 达到 人 类 水 平 的 通用 智能 (human-level 
general intelligence ) 的 讨论 太 当 回 事 。 在 短期 内 期 望 过 高 的 风险 是 , 一旦 技术 上 没有 实现 ， 那 
么 研究 投资 将 会 停止 ， 而 这 会 导致 在 很 长 一 段 时 间 内 进展 缓慢 。 

这 种 事 曾经 发 生 过 。 人 们 曾 对 人 工 智能 极度 乐观 ， 随 后 是 失望 与 怀疑 ， 进 而 导致 资金 荐 乏 。 
这 种 循环 发 生 过 两 次 ， 最 早 始 于 20 世纪 60 年 代 的 符号 主义 人 工 智 能 。 在 早期 的 那些 年 里 ， 人 
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们 激动 地 预测 着 人 工 智能 的 未 来 。 马 文 * 闵 斯 基 是 符号 主义 人 工 智能 方法 最 有 名 的 先驱 和 支持 
者 之 一 ， 他 在 1967 年 宣称 :“ 在 一 代 人 的 时 间 内 …… 将 基本 解决 创造 “人 工 智 能 ”的 问题 。” 三 
年 后 的 1970 年 ， 他 做 出 了 更 为 精确 的 定量 预测 :“ 在 三 到 八 年 的 时 间 里 ,我 们 将 拥有 一 台 具有 
人 类 平均 智能 的 机 噩 。” 在 2016 年 ， 这 一 目标 看 起 来 仍然 十 分 遥远 ， 遥 远 到 我 们 无 法 预测 需要 
多 长 时 间 才能 实现 。 但 在 20 世纪 60 年 代 和 70 年 代 初 ,一 些 专家 却 相信 这 一 目标 近 在 岂 尺 (下 
如 今天 许多 人 所 认为 的 那样 )。 几 年 之 后 ， 由 于 这 些 过 高 的 期 望 未 能 实现 ， 人 研究 人 员 和 政府 资金 
均 转 向 其 他 领域 , 这 标志 着 第 一 次 人 工 智能 冬天 ( AI winter ) 的 开始 ( 这 一 说 法 来 日 “ 核 冬 天 ”， 
因为 当时 是 冷战 高 峰之 后 不 久 )。 

这 并 不 是 人 工 智 能 的 最 后 一 个 冬天 。20 世纪 80 年 代 ， 一 种 新 的 符号 主义 人 工 智 能 一 一 专 
家 系统 ( expert system ) 一 一 开始 在 大 公司 中 受到 追捧 。 最 初 的 几 个 成 功 案例 引发 了 一 轮 投资 热 
潮 ， 进 而 全 球 企业 都 开始 设立 人 工 智 能 部 门 来 开发 专家 系统 。1985 年 前 后 ， 各 家 公司 每 年 在 这 
项 技术 上 的 花费 超过 10 亿美 元 。 但 到 了 20 世纪 90 年 代 初 ， 这 些 系统 的 维护 费用 变 得 很 高 ， 难 
以 扩展 ， 并 且 应 用 范围 有 限 ， 人 们 逐渐 对 其 失去 兴趣 。 于 是 开始 了 第 二 次 人 工 智能 冬天 。 

我 们 可 能 正在 见证 人 工 智 能 炒作 与 让 人 失望 的 第 三 次 循环 ， 而 且 我 们 仍 处 于 极度 乐观 的 阶 
段 。 最 好 的 做 法 是 降低 我 们 的 短期 期 望 ， 确 保 对 这 一 技术 领域 不 太 了 解 的 人 能 够 清楚 地 知道 深 
度 学 习 能 做 什么 、 不 能 做 什么 。 


1.1.8 人 工 智能 的 未 来 


虽然 我 们 对 人 工 智能 的 短期 期 望 可 能 不 切实 际 ， 但 长 远 来 看 前 景 是 光明 的 。 我 们 才刚 刚 开 
始 将 深度 学 习 应 用 于 许多 重要 的 问题 ， 从 医疗 诊断 到 数字 助手 ， 在 这 些 问 题 上 深度 学 习 都 发 挥 
了 变革 性 作用 。 过 去 五 年 里 ， 人 工 智 能 人 研究 一 直 在 以 惊人 的 速度 发 展 ， 这 在 很 大 程度 上 是 由 于 
人 工 智能 短 短 的 历史 中 前 所 未 见 的 资金 投入 ， 但 到 目前 为 止 ， 这 些 进展 却 很 少 能 够 转化 为 改变 
世界 的 产品 和 流程 。 深 度 学 习 的 大 多 数 研 究 成 果 尚 未 得 到 应 用 ， 至 少 尚 未 应 用 到 它 在 各 行 各 业 
中 能 够 解决 的 所 有 问题 上 。 你 的 医生 和 会 计 师 都 还 没有 使 用 人 工 智能 。 你 在 日 常生 活 中 可 能 
不 会 用 到 人 工 智能 。 当 然 ， 你 可 以 向 智能 手机 提出 简单 的 问题 并 得 到 合理 的 回答 ， 也 可 以 在 亚 
马 逊 网 站 上 得 到 相当 有 用 的 产品 推荐 ， 还 可 以 在 谷歌 相册 (Google Photos ) 网 站 搜索 “生日 ” 
并 立刻 找到 上 个 月 你 女儿 生日 聚会 的 照片 。 与 过 去 相 比 ， 这 些 技术 已 大 不 相同 ， 但 这 些 工具 仍 
然 只 是 日 常生 活 的 陪衬 。 人 工 智 能 仍 需 进一步 转变 为 我 们 工作 、 思 考 和 生活 的 核心 。 

眼下， 我 们 似乎 很 难 相 信人 工 智能 会 对 世界 产生 巨大 影响 ， 因 为 它 还 没有 被 广泛 地 部 署 应 
用 一 一 正如 1995 年 ， 我 们 也 难以 相信 互联 网 在 未 来 会 产生 的 影响 。 当 时 ， 大 多 数 人 都 没有 认识 
到 互联 网 与 他 们 的 关系 ， 以 及 互联 网 将 如 何 改 变 他 们 的 生活 。 今 天 的 深度 学 习 和 人 工 智 能 也 是 
如 此 。 但 不 要 怀疑 : 人 工 智能 即将 到 来 。 在 不 远 的 未 来 ， 人 工 智能 将 会 成 为 你 的 助手 ， 甚 至 成 
为 你 的 朋友 。 它 会 回答 你 的 问题 ， 帮 助 你 教育 孩子 ， 并 关注 你 的 健康 。 它 还 会 将 生活 用 品 送 到 
你 家 门口 ,并 开车 将 你 从 A 地 送 到 B 地 。 它 还 会 是 你 与 日 益 复 杂 的 信息 密集 的 世界 之 间 的 接口 。 
更 为 重要 的 是 ， 人 工 智能 将 会 帮助 科学 家 在 所 有 科学 领域 ( 从 基因 学 到 数学 ) 取得 突破 性 进展 ， 
从 而 帮助 人 类 整体 向 前 发 展 。 
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在 这 个 过 程 中 ， 我 们 可 能 会 经 历 一 些 挫折 ， 也 可 能 会 遇 到 新 的 人 工 智能 冬天 ， 正 如 互联 网 
行业 那样 ， 在 1998 一 1999 年 被 过 度 炒 作 ， 进 而 在 21 世纪 初 遭 遇 破 产 ， 并 导致 投资 停止 。 但 我 
们 最 终 会 实现 上 述 目 标 。 人 工 智 能 最 终 将 应 用 到 我 们 社会 和 日 常生 活 的 几乎 所 有 方面 ， 正 如 今 
天 的 互联 网 一 样 。 

不 要 相信 短期 的 炒作 ， 但 一 定 要 相信 长 期 的 愿景 。 人 工 智 能 可 能 需要 一 段 时 间 才 能 充分 发 
挥 其 潜力 。 这 一 潜力 的 范围 大 到 难以 想象 ， 但 人 工 智 能 终 将 到 来 ， 它 将 以 一 种 奇妙 的 方式 改变 
我 们 的 世界 。 

1.2 ”深度 学 习 之 前 : 机 器 学 习 简 史 

深度 学 习 已 经 得 到 了 人 工 智 能 历史 上 前 所 未 有 的 公众 关注 度 和 产业 投资 ， 但 这 并 不 是 机 需 
学 习 的 第 一 次 成 功 。 可 以 这 样 说 ， 当 前 工业 界 所 使 用 的 绝 大 部 分 机 器 学 习 算 法 都 不 是 深度 学 习 
算法 。 深 度 学 习 不 一 定 总 是 解决 问题 的 正确 工具 : 有 时 没有 足够 的 数据 ， 深 度 学 习 不 适用 ; 有 
时 用 其 他 算法 可 以 更 好 地 解决 问题 。 如 果 你 第 一 次 接触 的 机 器 学 习 就 是 深度 学 习 ， 那 你 可 能 会 
发 现 手 中 握 着 一 把 深度 学 习 “ 锤 子 ”， 而 所 有 机 顺 学 习 问 题 看 起 来 都 像 是 “钉子 ”。 为 了 避免 陷 
入 这 个 误区 ， 唯 一 的 方法 就 是 熟悉 其 他 机 需 学 习 方法 并 在 适当 的 时 候 进 行 实践 。 
关于 经 典 机 器 学 习 方 法 的 详细 讨论 已 经 超出 了 本 书 范围 ， 但 我 们 将 简要 回顾 这 些 方法 ， 并 
介绍 这 些 方法 的 历史 背景 。 这 样 我 们 可 以 将 深度 学 习 放 入 机 器 学 习 的 大 背景 中 ， 并 更 好 地 理解 
度 学 习 的 起 源 以 及 它 为 什么 如 此 重要 。 





















































4 
深 


1.2.1 概率 建 模 


概率 建 模 ( probabilistic modeling ) 是 统计 学 原理 在 数据 分 析 中 的 应 用 。 它 是 最 早 的 机 器 学 
习 形 式 之 一 ， 至 今 仍 在 广泛 使 用 。 其 中 最 有 名 的 算法 之 一 就 是 朴素 贝 叶 斯 算法 。 

朴素 贝 叶 斯 是 一 类 基于 应 用 贝 叶 斯 定理 的 机 器 学 习 分 类 器 ， 它 假设 输入 数据 的 特征 都 是 独 
立 的 。 这 是 一 个 很 强 的 假设 ， 或 者 说 “朴素 的 ”假设 ， 其 名 称 正 来 源 于 此 。 这 种 数据 分 析 方 法 
比 计算 机 出 现 得 还 要 早 ， 在 其 第 一 次 被 计算 机 实现 (很 可 能 追溯 到 20 世纪 50 年 代 ) 的 几 十 年 
前 就 已 经 靠 人 工 计算 来 应 用 了 。 贝 叶 斯 定理 和 统计 学 基础 可 以 追溯 到 18 世纪 ， 你 学 会 了 这 两 点 
就 可 以 开始 使 用 朴素 贝 叶 斯 分 类 器 了 。 

另 一 个 密切 相关 的 模型 是 logistic 回归 (1logistic regression， 简 称 logreg )， 它 有 时 被 认为 是 
现代 机 需 学 习 的 “hello world”。 不 要 被 它 的 名 称 所 误导 logreg 是 一 种 分 类 算法 ， 而 不 是 回 
归 算 法 。 与 朴素 贝 叶 斯 类 似 ，logreg 的 出 现 也 比 计算 机 早 很 长 时 间 , 但 由 于 它 既 简单 又 通用 ， 
至 今 仍然 很 有 用 。 面 对 一 个 数据 集 ， 数 据 科 学 家 通常 会 首先 尝试 使 用 这 个 算法 ， 以 便 初步 熟悉 
手头 的 分 类 任务 。 


1.2.2 早期 神经 网 络 
神经 网 络 早期 的 迭代 方法 已 经 完全 被 本 章 所 介绍 的 现代 方法 所 取代 ,但 仍 有 助 于 我 们 了 解 
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深度 学 习 的 起 源 。 虽 然 人 们 早 在 20 世纪 50 年 代 就 将 神经 网 络 作为 玩具 项 目 ， 并 对 其 核心 思想 
进行 研究 ， 但 这 一 方法 在 数 十 年 后 才 被 人 们 所 使 用 。 在 很 长 一 段 时 间 内 ， 一 直 没 有 训练 大 型 神 
经 网 络 的 有 效 方法 。 这 一 点 在 20 世纪 80 年 代 中 期 发 生 了 变化 ， 当 时 很 多 人 都 独立 地 重新 发 现 
了 反 向 传播 算法 种 利用 梯度 下 降 优化 来 训练 一 系列 参数 化 运算 链 的 方法 ( 本 书后 面 将 给 
出 这 些 概念 的 具体 定义 )， 并 开始 将 其 应 用 于 神经 网 络 。 

贝尔 实验 室 于 1989 年 第 一 次 成 功 实现 了 神经 网 络 的 实践 应 用 ， 当 时 Yann LeCun 将 卷 积 
神经 网 络 的 早期 思想 与 反 向 传播 算法 相 结合 ， 并 将 其 应 用 于 手写 数字 分 类 问题 ， 由 此 得 到 名 为 
LeNet 的 网 络 ,在 20 世纪 90 年 代 被 美国 邮政 署 采用 ， 用 于 自动 读 取信 封 上 的 邮政 编码 。 

































































1.2.3” 核 方法 


上 节 所 述 神经 网 络 取得 了 第 一 次 成 功 ， 并 在 20 世纪 90 年 代 开 始 在 研究 人 员 中 受到 一 定 的 
重视 ， 但 一 种 新 的 机 顺 学 习 方法 在 这 时 声名 鹊起 ， 很 快 就 使 人 们 将 神经 网 络 抛 诸 脑 后 。 这 种 方 
法 就 是 核 方法 (kemel method )。 核 方法 是 一 组 分 类 算法 , 其 中 最 有 名 的 就 是 支持 向 量 机 (SVM， 
support vector machine )。 虽 然 Vladimir Vapnik 和 Alexey Chervonenkis 早 在 1963 年 就 发 表 了 较 
早 版 本 的 线性 公式 %, 但 SVM 的 现代 公式 由 Vladimir Vapnik 和 Corinna Cortes 于 20 世纪 90 年 代 
初 在 贝尔 实验 室 提出 ， 并 发 表 于 1995 年 。 

SVM 的 目标 是 通过 在 属于 两 个 不 同类 别 的 两 组 数据 点 之 间 找 到 良好 决策 边界 ( decision 
boundary， 见 图 1-10 ) 来 解决 分 类 问题 。 决 策 边界 可 以 看 作 一 条 直线 或 一 个 平面 ， 将 训练 数据 
划分 为 两 块 空间 ， 分 别 对 应 于 两 个 类 别 。 对 于 新 数据 点 的 分 类 ， 你 只 需 判断 它 位 于 决策 边界 的 
哪 一 侧 。 



































图 1-10 决策 边界 
SVM 通过 两 步 来 寻找 决策 边界 。 
(1) 将 数据 映射 到 一 个 新 的 高 维 表示 ， 这 时 决策 边界 可 以 用 一 个 超 平面 来 表示 如果 数据 像 
图 1-10 那样 是 二 维 的 ， 那 么 超 平面 就 是 一 条 直线 )。 











GD VAPNIK V, CHERVONENK!IS A. A note on one class of perceptrons [J]]. Automation and Remote Control, 1964, 25(1). 
© VAPNIK V, CORTES C. Support-vector networks [J]. Machine Learning, 1995, 20(3): 273-297. 
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(2) 尽量 让 超 平 面 与 每 个 类 别 最 近 的 数据 点 之 间 的 距离 最 大 化 ,从 而 计算 出 良好 决策 边界 ( 分 
制 超 平 面 )， 这 一 步 叫 作 间隔 最 大 化 (maximizing the margin )。 这 样 决策 边界 可 以 很 好 
地 推广 到 训练 数据 集 之 外 的 新 样本 。 

将 数据 映射 到 高 维 表 示 从 而 使 分 类 问题 简化 ， 这 一 技巧 可 能 听 起 来 很 不 错 ， 但 在 实践 中 通 
常 是 难以 计算 的 。 这 时 就 需要 用 到 核 技 巧 ( kernel trick， 核 方法 正 是 因 这 一 核心 思想 而 得 名 )。 
其 基本 思想 是 : 要 想 在 新 的 表示 空间 中 找到 良好 的 决策 超 平面 ， 你 不 需要 在 新 空间 中 直接 计算 
点 的 坐标 ， 只 需要 在 新 空间 中 计算 点 对 之 间 的 距离 ， 而 利用 核 函 数 ( kernel function ) 可 以 高 效 
地 完成 这 种 计算 。 核 函数 是 一 个 在 计算 上 能 够 实现 的 操作 ， 将 原始 空间 中 的 任意 两 点 映射 为 这 
两 点 在 目标 表示 空间 中 的 距离 ， 完 全 避免 了 对 新 表示 进行 直接 计算 。 核 函数 通常 是 人 为 选择 的 ， 
而 不 是 从 数据 中 学 到 的 一 一 对 于 SVM 来 说 ， 只 有 分 割 超 平 面 是 通过 学 习 得 到 的 。 

SVM 刚刚 出 现时 ， 在 简单 的 分 类 问题 上 表现 出 了 最 好 的 性 能 。 当 时 只 有 少数 机 需 学 习 方 法 
得 到 大 量 的 理论 支持 ， 并 且 适 合用 于 严肃 的 数学 分 析 ， 因 而 非常 易于 理解 和 解释 ，SVM 就 是 其 
中 之 一 。 由 于 SVM 具有 这 些 有 用 的 性 质 ， 很 长 一 段 时 间 里 它 在 实践 中 非常 流行 。 

但 是 ，SVM 很 难 扩展 到 大 型 数据 集 ， 并 且 在 图 像 分 类 等 感知 问题 上 的 效果 也 不 好 。SVM 
是 一 种 比较 浅 层 的 方法 ， 因 此 要 想 将 其 应 用 于 感知 问题 ， 首 先 需要 手动 提取 出 有 用 的 表示 ( 这 
叫 作 特征 工程 )， 这 一 步骤 很 难 ， 而 且 不 稳定 。 


1.2.4 决策 树 、 随 机 森林 与 梯度 提升 机 


决策 树 (decision tree ) 是 类 似 于 流程 图 的 结构 ， 可 以 对 输入 数据 点 进行 分 类 或 根据 给 定 输 
入 来 预测 输出 值 ( 见 图 1-11 )。 决 策 树 的 可 视 化 和 解释 都 很 简单 。 在 21 世纪 前 十 年 ， 从 数据 中 
学 习 得 到 的 决策 树 开 始 引 起 研究 人 员 的 广泛 关注 。 到 了 2010 年 , 决策 树 经 常 比 核 方 法 更 受 欢迎 。 






















































































输入 数据 





类 别 类 别 类 别 类 别 
图 1-11 决策 树 : 需要 学 习 的 参数 是 关于 数据 的 问题 。 举 个 例子 , 问题 可 能 是 : 
“数据 中 第 2 个 系数 是 否 大 于 3.5? ” 

寺 别 是 随机 森林 (random forest ) 算法 ， 它 引入 了 一 种 健壮 旦 实用 的 决策 树 学 习 方 法 ， 即 
首先 构建 许多 决策 树 ， 然 后 将 它们 的 输出 集成 在 一 起 。 随 机 森林 适用 于 各 种 各 样 的 问题 一 一 
对 于 任何 浅 层 的 机 器 学 习 任 务 来 说 ， 它 几乎 总 是 第 二 好 的 算法 。 广 受 欢 迎 的 机 器 学 习 竞 赛 网 站 
Kaggle 在 2010 年 上 线 后 ， 随 机 和 森林 迅速 成 为 平台 上 人 们 的 最 爱 ， 直 到 2014 年 才 被 梯度 提升 机 
所 取代 。 与 随机 森林 类 似 ， 梯 度 提升 机 (gradient boosting machine ) 也 是 将 弱 预 测 模型 ( 通常 
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是 决策 树 ) 集成 的 机 器 学 习 技术 。 它 使 用 了 梯度 提升 方法 ， 通 过 迭代 地 训练 新 模型 来 专门 解决 
之 前 模型 的 弱点 ， 从 而 改进 任何 机 器 学 习 模 型 的 效果 。 将 梯度 提升 技术 应 用 于 决策 树 时 ， 得 到 
的 模型 与 随机 森林 具有 相似 的 性 质 ， 但 在 绝 大 多 数 情况 下 效果 都 比 随机 森林 要 好 。 它 可 能 是 目 
前 处 理 非 感知 数据 最 好 的 算法 之 一 (如 果 非 要 加 个 “之 一 ”的 话 )。 和 深度 学 习 一 样 ， 它 也 是 
Kaggle 竞赛 中 最 常用 的 技术 之 一 。 


1.2.5 回 到 神经 网 络 


虽然 神经 网 络 几 乎 被 整个 科学 界 完全 忽略 ， 但 仍 有 一 些 人 在 继续 研究 神经 网 络 ， 并 在 2010 
年 左右 开始 取得 重大 突破 。 这 些 人 包括 : 多 伦 多 大 学 Geoffrey Hinton 的 小 组 、 蒙 特 利 尔 大 学 的 
Yoshua Bengio 、 纽 约 大 学 的 Yann LeCun 和 瑞士 的 IDSIA。 

2011 年 ， 来 自 IDSIA 的 Dan Ciresan 开始 利用 GPU 训练 的 次 度 神 经 网 络 赢得 学 术 性 的 图 像 
分 类 竞赛 ， 这 是 现代 深度 学 习 第 一 次 在 实践 中 获得 成 功 。 但 真正 的 转折 性 时 刻 出 现在 2012 年 ， 
当年 Hinton 小 组 参加 了 每 年 一 次 的 大 规模 图 像 分 类 挑战 赛 ImageNet。ImageNet 挑战 赛 在 当时 
以 困难 著称 ， 参 赛 者 需要 对 140 万 张 高 分 辨 率 彩 色 图 像 进行 训练 ， 然 后 将 其 划分 到 1000 个 不 同 
的 类 别 中 。2011 年 ， 获 胜 的 模型 基于 经 典 的 计算 机 视觉 方法 ， 其 top-5 精度 ”只 有 74.3%。 到 了 
2012 年 ， 由 Alex Krizhevsky 带领 并 由 Geoffrey Hinton 提供 建议 的 小 组 ， 实 现 了 83.6% 的 top-5 
精度 一 一 这 是 一 项 重大 突破 。 此 后 , 这 项 竞赛 每 年 都 由 深度 卷 积 神经 网 络 所 主导 。 到 了 2015 年 ， 
获胜 者 的 精度 达到 了 96.4%， 此 时 ImageNet 的 分 类 任务 被 认为 是 一 个 已 经 完全 解决 的 问题 。 

自 2012 年 以 来 ,深度 卷 积 神经 网 络 ( convnet ) 已 成 为 所 有 计算 机 视觉 任务 的 首选 算法 。 更 
一 般 地 说 ， 它 在 所 有 感知 任务 上 都 有 效 。 在 2015 年 和 2016 年 的 主要 计算 机 视觉 会 议 上 ， 几 乎 
所 有 演讲 都 与 convnet 有 关 。 与 此 同时 ， 深 度 学 习 也 在 许多 其 他 类 型 的 问题 上 得 到 应 用 ， 比 如 自 
然 语 言 处 理 。 它 已 经 在 大 量 应 用 中 完全 取代 了 SVM 与 决策 树 。 举 个 例子 ， 欧 洲 核子 研究 中 心 
( CERN ) 多 年 来 一 直 使 用 基于 决策 树 的 方法 来 分 析 来 自 大 型 强 子 对 撞 机 (LHC ) ATLAS 探测 需 
的 粒子 数据 ， 但 CERN 最 终 转向 基于 Keras 的 深度 神经 网 络 ， 因 为 它 的 性 能 更 好 ， 而 且 在 大 型 
数据 集 上 易于 训练 。 


1.2.6 ”深度 学 习 有 何不 同 


深度 学 习 发 展 得 如 此 迅速 ， 主 要 原因 在 于 它 在 很 多 问题 上 都 表现 出 更 好 的 性 能 。 但 这 并 不 
是 唯一 的 原因 。 深 度 学 习 还 让 解决 问题 变 得 更 加 简单 ， 因 为 它 将 特征 工程 完全 自动 化 ， 而 这 曾 
经 是 机 融 学 习 工作 流程 中 最 关键 的 一 步 。 

先前 的 机 需 学 习 技术 〈 浅 层 学 习 ) 仅 包含 将 输入 数据 变换 到 一 两 个 连续 的 表示 空间 ， 通 常 
使 用 简单 的 变换 ， 比 如 高 维 非 线性 投影 (SVM ) 或 决策 树 。 但 这 些 技术 通常 无 法 得 到 复杂 问题 
所 需要 的 精确 表示 。 因 此 ， 人 们 必须 竭尽 全 力 让 初始 输入 数据 更 适合 用 这 些 方法 处 理 ， 也 必须 
手动 为 数据 设计 好 的 表示 层 。 这 叫 作 特 征 工程 。 与 此 相反 ， 深 度 学 习 完 全 将 这 个 步骤 自动化: 


























































































































GD top-5 精度 是 指 给 定 一 张 图 像 ， 如 果 模 型 预测 的 前 5 个 标签 中 包含 正确 标签 ， 即 为 预测 正确 。 一 一 译 者 注 
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利用 深度 学 习 ， 你 可 以 一 次 性 学 习 所 有 特征 ， 而 无 须 自己 手动 设计 。 这 极 大 地 简化 了 机 器 学 习 
工作 流程 ， 通 常 将 复杂 的 多 阶段 流程 蔡 换 为 一 个 简单 的 、 端 到 端的 深度 学 习 模 型 。 

你 可 能 会 问 ， 如 果 问 题 的 关键 在 于 有 多 个 连续 表示 层 ， 那 么 能 和 否 重 复 应 用 浅 层 方法 ， 以 实 
现 和 深度 学 习 类 似 的 效果 ? 在 实践 中 ， 如 果 连 续 应 用 浅 层 学 习 方法 ， 其 收益 会 随 着 层 数 增加 迅 
速 降低 ， 因 为 三 层 模型 中 最 优 的 第 一 表示 层 并 不 是 单 层 或 双 层 模型 中 最 优 的 第 一 表示 层 。 深 度 
学 习 的 变革 性 在 于 ， 模 型 可 以 在 同一 时 间 共 同学 习 所 有 表示 层 ， 而 不 是 依次 连续 学 习 (这 被 称 
为 贪 禁 学习 )。 通 过 共同 的 特征 学 习 ， 一 旦 模型 修改 革 个 内 部 特征 ， 所 有 依赖 于 该 特征 的 其 他 特 
征 都 会 相应 地 自动 调节 适应 ， 无 有 顷 人 为 干预 。 一 切 都 由 单一 反馈 信号 来 监督 : 模型 中 的 每 一 处 
变化 都 是 为 了 最 终 目标 服务 。 这 种 方法 比 贪 焚 地 二 加 浅 层 模型 更 加 强大 ,因为 它 可 以 通过 将 复杂 、 
抽象 的 表示 拆 解 为 很 多 个 中 间 空 间 ( 层 ) 来 学 习 这 些 表 示 ， 每 个 中 间 空 间 仅仅 是 前 一 个 空间 的 
简单 变换 。 

深度 学 习 从 数据 中 进行 学 习 时 有 两 个 基本 特征 : 第 一 ， 通 过 渐进 的 、 逐 层 的 方式 形成 越 来 
越 复杂 的 表示 ; 第 二 ， 对 中 间 这 些 渐进 的 表示 共同 进行 学 习 ， 每 一 层 的 变化 都 需要 同时 考虑 上 
下 两 层 的 需要 。 总 之 ， 这 两 个 特征 使 得 深度 学 习 比 先前 的 机 器 学 习 方法 更 加 成 功 。 


1.2.7 ”机 器 学 习 现状 


要 想 了 解 机 器 学 习 算法 和 工具 的 现状 ， 一 个 好 方法 是 看 一 下 Kaggle 上 的 机 器 学 习 竞赛 。 
Kaggle 上 的 竞争 非常 激烈 有些 比赛 有 数 千 名 参赛 者 ， 并 提供 数 百 万 美元 的 奖金 )， 而 且 涵 盖 
了 各 种 类 型 的 机 还 学 习 问 题 ， 所 以 它 提供 了 一 种 现实 方法 来 评判 哪 种 方法 有 效 、 哪 种 方法 无 效 。 
那么 哪 种 算法 能 够 可 靠 地 赢得 竞赛 呢 ? 顶级 参赛 者 都 使 用 哪些 工具 ? 

在 2016 年 和 2017 年 ，Kaggle 上 主要 有 两 大 方法 : 梯度 提升 机 和 深度 学 习 。 具 体 而 言 ， 梯 
度 提 升 机 用 于 处 理 结 构 化 数据 的 问题 ， 而 深度 学 习 则 用 于 图 像 分 类 等 感知 问题 。 使 用 前 一 种 方 
法 的 人 几乎 都 使 用 优秀 的 XGBoost 库 ， 它 同时 文 持 数据 科学 最 流行 的 两 种 语言 : Python 和 了 R。 
使 用 深度 学 习 的 Kaggle 参赛 者 则 大 多 使 用 Keras 库 ， 因 为 它 易 于 使 用 ， 非 常 灵 活 ， 并 且 支 持 
Python。 

要 想 在 如 今 的 应 用 机 顺 学 习 中 取得 成 功 ， 你 应 该 熟悉 这 两 种 技术 : 梯度 提升 机 ， 用 于 浅 层 
学 习 问 题 ; 深度 学 习 ， 用 于 感知 问题 。 用 术语 来 说 ， 你 需要 熟悉 XGBoost 和 Keras， 它 们 是 目 
前 主宰 Kaggle 竞赛 的 两 个 库 。 有 了 本 书 ， 你 已 经 向 这 个 目标 迈 出 了 一 大 步 。 


1.3 ”为 什么 是 深度 学 习 ， 为 什么 是 现在 


深度 学 习 用 于 计算 机 视觉 的 两 个 关键 思想 ， 即 卷 积 神经 网 络 和 反问 传播 ， 在 1989 年 就 已 经 
为 人 们 所 知 。 长 短期 记忆 (LSTM，long short-term memory ) 算法 是 深度 学 习 处 理 时 间 序 列 的 
基础 ， 它 在 1997 年 就 被 开发 出 来 了 ， 而 且 此 后 几乎 没有 发 生变 化 。 那 么 为 什么 深度 学 习 在 
2012 年 之 后 才 开始 取得 成 功 ? 这 二 十 年 间 发 生 了 什么 变化 ? 

总 的 来 说 ， 三 种 技术 力量 在 推动 着 机 器 学 习 的 进步 : 











































































































口 硬件 
口 数据 集 和 基准 
口 算法 上 的 改进 
由 于 这 一 领域 是 靠 实验 结 果 而 不 是 理论 指导 的 ， 所 以 只 有 当 合适 的 数据 和 硬件 可 用 于 尝试 
新 想法 时 ( 或 者 将 旧 想 法 的 规模 扩大 ， 事 实 往往 也 是 如 此 )， 才 可 能 出 现 算法 上 的 改进 。 机 还 学 
习 不 是 数学 或 物理 学 ， 靠 一 支 笔 和 一 张 纸 就 能 实现 重大 进展 。 它 是 一 门 工程 科学 。 

在 20 世纪 90 年 代 和 21 世纪 前 十 年 ， 真 正 的 瓶颈 在 于 数据 和 硬件 。 但 在 这 段 时 间 内 发 生 了 
下 面 这 些 事情 : 互联 网 高 速 发 展 ， 并 且 针 对 游戏 市 场 的 需求 开发 出 了 高 性 能 图 形 芯片 。 


1.3.1 硬件 


从 1990 年 到 2010 年 ， 非 定制 CPU 的 速度 提高 了 约 5000 倍 。 因 此 ， 现 在 可 以 在 笔记 本 电 
脑 上 运行 小 型 深度 学 习 模型 ， 但 在 25 年 前 是 无 法 实现 的 。 

但 是 ， 对 于 计算 机 视觉 或 语音 识别 所 使 用 的 典型 深度 学 习 模 型 ， 所 需要 的 计算 能 力 要 比 笔 
记 本 电脑 的 计算 能 力 高 几 个 数量 级 。 在 20 世纪 前 十 年 里 ，NVIDIA 和 AMD 等 公司 投资 数 十 亿 
美元 来 开发 快速 的 大 规模 并 行 芯 片 ( 图 形 处 理 器 ，GPU )， 以 便 为 越 来 越 逼真 的 视频 游戏 提供 图 
形 显示 支持 。 这 些 芯片 是 廉价 的 .单一 用 途 的 超级 计算 机 ,用 于 在 屏幕 上 实时 泻 染 复杂 的 3D 场景 。 
这 些 投资 为 科学 界 带 来 了 好 处 。2007 年 , NVIDIA 推出 了 CUDA, 作为 其 GPU 系列 的 编程 接口 。 
少量 GPU 开始 在 各 种 高 度 并 行 化 的 应 用 中 替代 大 量 CPU 集群 ， 并 且 最 早 应 用 于 物理 建 模 。 深 
度 神 经 网 络 主要 由 许多 小 和 矩阵 乘法 组 成 ， 它 也 是 高 度 并 行 化 的 。2011 年 前 后 ， 一 些 研 究 人 员 开 
始 编写 神经 网 络 的 CUDA 实现 ， 而 Dan Ciresan 和 Alex Krizhevsky2 属于 第 一 批 人 。 

这 样 ， 游 戏 市 场 资助 了 用 于 下 一 代 人 工 智 能 应 用 的 超级 计算 。 有 时 候 ， 大 事件 都 是 从 游戏 
开始 的 。 今 天 ，NVIDIA TITAN X (一 款 游戏 GPU， 在 2015 年 底 售 价 1000 美元 ) 可 以 实现 单 
精度 6.6 TFLOPS 的 峰值 ， 即 每 秒 进行 6.6 万 亿 次 float32 运算 。 这 比 一 台 现 代笔 记 本 电脑 的 
速度 要 快 约 350 倍 。 使 用 一 块 TITAN X 显卡 ， 只 需 几 天 就 可 以 训练 出 儿 年 前 赢得 ILSVRC 竞赛 
的 ImageNet 模型 。 与 此 同时 ， 大 公司 还 在 包含 数 百 个 GPU 的 集群 上 训练 深度 学 习 模 型 ， 这 种 
类 型 的 GPU 是 专门 针对 深度 学 习 的 需求 开发 的 ， 比 如 NVIDIA Tesla K80。 如 果 没 有 现代 GPU， 
这 种 集群 的 超级 计算 能 力 是 不 可 能 实现 的 。 

此 外 ， 深 度 学 习 行 业已 经 开始 超越 GPU， 开 始 投 资 于 日 益 专业 化 的 高 效 蕊 片 来 进行 深度 学 
习 。2016 年 ，Google 在 其 年 度 IO 大 会 上 展示 了 张 量 处 理 器 (TPU ) 项 目 ， 它 是 一 种 新 的 芯片 
设计 , 其 开发 目的 完全 是 为 了 运行 深度 神经 网 络 。 据 报道 , 它 的 速度 比 最 好 的 GPU 还 要 快 10 倍 ， 
而 且 能 效 更 高 。 

































































































































































GD 参见 “Flexible, high performance convolutional neural networks for image classification”， 刊 载 于 Proceedings of the 


22nd International Joint Conference on Artificial Intelligence，2011 年 。 








@ 参见 “ImageNet classification with deep convolutional neural networks”， 刊 载 于 Advances in Neural Information Processing 
Systems，2012 年 第 25 辑 。 








1.3.2 ”数据 


人 工 智能 有 时 被 称 为 新 的 工业 革命 。 如 果 深 度 学 习 是 这 场 革 命 的 蒸汽 机 ,那么 数据 就 是 煤炭 ， 
即 驱 动 智 能 机 絮 的 原材料 ， 没 有 煤炭 一 切 丝 不 可 能 。 就 数据 而 言 ， 除 了 过 去 20 年 里 存储 硬件 的 
指数 级 增长 〈 遵循 摩尔 定律 )， 最 大 的 变革 来 自 于 互联 网 的 兴起 ， 它 使 得 收集 与 分 发 用 于 机 融 学 
习 的 超大 型 数据 集 变 得 可 行 。 如 今 ， 大 公司 使 用 的 图 像 数据 集 、 视 频数 据 集 和 自然 语言 数据 集 ， 
如 果 没 有 互联 网 的 话 根 本 无 法 收集 。 例 如 ，Flickr 网 站 上 用 户 生成 的 图 像 标签 一 直 是 计算 机 视觉 
的 数据 宝库 。YouTube 视频 也 是 一 座 宝 库 。 维 基 百 科 则 是 自然 语言 处 理 的 关键 数据 集 。 

如 果 有 一 个 数据 集 是 深度 学 习 兴起 的 催化 剂 的 话 ， 那 么 一 定 是 ImageNet 数据 集 。 它 包含 
140 万 张 图 像 ， 这 些 图 像 已 经 被 人 工 划 分 为 1000 个 图 像 类 别 ( 每 张 图 像 对 应 1 个 类 别 ) 但 
ImageNet 的 特殊 之 处 不 仅 在 于 其 数量 之 大 ， 还 在 于 与 它 相关 的 年 度 竞赛 。 

正如 Kaggle 自 2010 年 以 来 所 展示 的 那样 ， 公 开 竞 赛 是 激励 研究 人 员 和 工程 师 挑战 极限 的 
极 好 方法 。 人 研究 人 员 通 过 苋 争 来 挑战 共同 基准 ， 这 极 大 地 促进 了 近期 深度 学 习 的 兴 









































1.3:3” 算 法 

除了 硬件 和 数据 之 外 ， 直 到 20 世纪 前 十 年 的 末期 ,我们 仍 没有 可 靠 的 方法 来 训练 非常 深 
的 神经 网 络 。 因 此 ， 神 经 网 络 仍然 很 浅 ， 仅 使 用 一 两 个 表示 层 ， 无 法 超越 更 为 精确 的 浅 层 方法 ， 
比如 SVM 和 随机 和 森林。 关键 问题 在 于 通过 多 层 登 加 的 梯度 传播 。 随 着 层 数 的 增加 ， 用 于 训练 神 
经 网 络 的 反馈 信号 会 逐渐 消失 。 

这 一 情况 在 2009 一 2010 年 左右 发 生 了 变化 ， 当 时 出 现 了 几 个 很 简单 但 很 重要 的 算法 改进 ， 
可 以 实现 更 好 的 梯度 传播 。 
口 更 好 的 神经 层 激活 函数 (activation function )。 
口 更 好 的 权重 初始 化 方案 ( weight-initialization scheme )， 一 开始 使 用 逐 层 预 训 练 的 方法 ， 
不 过 这 种 方法 很 快 就 被 放弃 了 。 
口 更 好 的 优化 方案 (optimization scheme )， 比 如 RMSProp 和 Adam。 

只 有 这 些 改进 可 以 训练 10 层 以 上 的 模型 时 ， 深 度 学 习 才 开始 大 放 异 彩 。 

最 后 ,在 2014 年 、2015 年 和 2016 年 ， 人 们 发 现 了 更 先进 的 有 助 于 梯度 传播 的 方法 ， 比 如 
批 标准 化 、 残 差 连 接 和 深度 可 分 离 卷 积 。 今 天 ， 我 们 可 以 从 头 开 始 训 练 上 千 层 的 模型 。 


1.3.4 ”新 的 投资 热潮 


随 着 深度 学 习 于 2012 一 2013 年 在 计算 机 视觉 领域 成 为 新 的 最 优 算 法 ， 并 最 终 在 所 有 感知 任 
务 上 都 成 为 最 优 算法 ， 业 界 领导 者 开始 注意 到 它 。 接 下 来 就 是 逐步 升温 的 业界 投资 热潮 ， 远 远 
超出 了 人 工 智能 历史 上 曾经 出 现 过 的 任何 投资 。 

2011 年 , 就 在 深度 学 习 大 放 异 彩 之 前 , 在 人 工 智 能 方面 的 风险 投资 总 额 大 约 为 1900 万 美元 ， 
































GD ImageNet 大 规模 视觉 识别 挑战 赛 (ILSVRC )。 
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几乎 全 都 投 给 了 浅 层 机 器 学 习 方 法 的 实际 应 用 。 到 了 2014 年 ， 这 一 数字 已 经 涨 到 了 惊人 的 3.94 
亿美 元 。 这 三 年 里 创办 了 数 十 家 创业 公司 ,试图 从 深度 学 习 炒 作 中 获 利 。 与 此 同时 ，Google、 
Facebook 、 百 度 、 微 软 等 大 型 科技 公司 已 经 在 内 部 研究 部 门 进行 投资 ， 其 金额 很 可 能 已 经 超过 
了 风险 投资 的 现金 流 。 其 中 只 有 少数 金额 被 公之于众 : 2013 年 ，Google 收购 了 深度 学 习 创 业 公 
司 DeepMind， 报 道 称 收购 价格 为 5 亿美 元 ， 这 是 历史 上 对 人 工 智 能 公司 的 最 高 收购 价格 。2014 
年 ， 百 度 在 硅谷 启动 了 深度 学 习 研 究 中 心 ， 为 该 项 目 投资 3 亿美 元 。2016 年 ， 深 度 学 习 硬 件 创 
业 公 司 Nervana Systems 被 英特尔 收购 ， 收 购 价 格 逾 4 亿美 元 。 

机 需 学 习 ， 特 别 是 次 度 学 习 ， 已 成 为 这 些 科 技 巨 头 产 品 战略 的 核心 。2015 年 末 ，Goosgle 首 
席 执行 官 Sundar Pichai 表示 :“ 机 器 学 习 这 一 具有 变革 意义 的 核心 技术 将 促使 我 们 重新 思考 做 所 
有 事情 的 方式 。 我 们 用 心 将 其 应 用 于 所 有 产品 ， 无 论 是 搜索 、 广 告 、YouTube 还 是 Google Play。 
我 们 尚 处 于 早期 阶段 ， 但 你 将 会 看 到 我 们 系统 性 地 将 机 器 学 习 应 用 于 所 有 这 些 领 域 。” 了 

由 于 这 波 投资 热 泣 ， 短 短 五 年 间 从 事 次 度 学 习 的 人 数 从 几 千 人 涨 到 数 万 人 ， 研 究 进展 也 达 
到 了 惊人 的 速度 。 目 前 没有 迹象 表明 这 种 趋势 会 在 短期 内 放 组 。 


1.3.5 深度 学 习 的 大 众 化 


有 许多 新 面孔 进入 深度 学 习 领 域 ， 而 主要 的 驱动 因素 之 一 是 该 领域 所 使 用 工具 集 的 大 众 
化 。 在 早期 ， 从 事 深度 学 习 需 要 精通 CH+ 和 CUDA， 而 它们 只 有 少数 人 才能 掌握 。 如 今 ， 具 
有 基本 的 Python 脚本 技能 ， 就 可 以 从 事 高 级 的 深度 学 习 人 研究 。 这 主要 得 益 于 Theano 及 随后 的 
TensorFlow 的 开发 ， 以 及 Keras 等 用 户 友好 型 库 的 兴起 。Theano 和 TensorFlow 是 两 个 符号 式 的 
张 量 运算 的 Python 框架 ， 都 支持 自动 求 微分 ， 这 极 大 地 简化 了 新 模型 的 实现 过 程 。Keras 等 用 
户 友好 型 库 则 使 深度 学 习 变 得 像 操 纵 乐 高 积木 一 样 简单 。Keras 在 2015 年 初 发 布 ， 并 且 很 快 就 
成 为 大 量 创业 公司 、 研 究 生 和 研究 人 员 转 癌 该 领域 的 首选 深度 学 习 解 决 方案 。 


1.3.6 ”这 种 趋势 会 持续 吗 


深度 神经 网 络 成 为 企业 投资 和 研究 人 员 纷纷 选择 的 正确 方法 ， 它 究竟 有 何 特别 之 处 ? 换 句 
话说 ， 深 度 学 习 是 否 只 是 难以 持续 的 县 花 一 现 ? 20 年 后 我 们 是 否 仍 在 使 用 深度 神经 网 络 ? 
深度 学 习 有 几 个 重要 的 性 质 ， 证 明了 它 确实 是 人 工 智能 的 革命 ， 并 且 能 长 盛 不 衰 。20 年 后 
我 们 可 能 不 再 使 用 神经 网 络 ， 但 我 们 那 时 所 使 用 的 工具 都 是 直接 来 自 于 现代 深度 学 习 及 其 核心 
概念 。 这 些 重要 的 性 质 可 大 致 分 为 以 下 三 类 。 
口 简单 。 深 度 学 习 不 需要 特征 工程 ， 它 将 复杂 的 、 不 稳定 的 、 工 程 量 很 大 的 流程 蔡 换 为 简 
单 的 、 端 到 端的 可 训练 模型 ， 这 些 模型 通常 只 用 到 五 六 种 不 同 的 张 量 运算 。 
口 可 扩展 .深度 学 习 非 党 适合 在 GPU 或 TPU 上 并 行 计算 ,因此 可 以 充分 利用 摩尔 定律 。 此 外 ， 
深度 学 习 模 型 通过 对 小 批量 数据 进行 迭代 来 训练 ， 因 此 可 以 在 任意 大 小 的 数据 集 上 进行 
训练 。( 唯一 的 瓶颈 是 可 用 的 并 行 计 算 能 力 ， 而 由 于 摩尔 定律 ， 这 一 限制 会 越 来 越 小 。) 






















































































































































































GD 参见 “Alphabet earnings call”"，2015 年 10 月 22 日 。 
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口 多 功能 与 可 复 用 。 与 之 前 的 许多 机 带 学 习 方 法 不 同 ， 深 度 学 习 模 型 无 须 从 头 开始 就 可 以 | 
在 附加 数据 上 进行 训练 ， 因 此 可 用 于 连续 在 线 学 习 ， 这 对 于 大 型 生产 模型 而 言 是 非常 重 
要 的 特性 。 此 外 ， 训 练 好 的 深度 学 习 模 型 可 用 于 其 他 用 途 ， 因 此 是 可 以 重复 使 用 的 。 举 
个 例子 ， 可 以 将 一 个 对 图 像 分 类 进行 训练 的 深度 学 习 模 型 应 用 于 视频 处 理 流程 。 这 样 我 
们 可 以 将 以 前 的 工作 重新 投入 到 日 益 复 杂 和 强大 的 模型 中 。 这 也 使 得 深度 学 习 可 以 适用 
于 较 小 的 数据 集 。 
深度 学 习 数 年 来 一 直 备 受 关注 ， 我 们 还 没有 发 现 其 能 力 的 界限 。 每 过 一 个 月 ， 我 们 都 会 
到 新 的 用 例 和 工程 改进 ， 从 而 突破 先前 的 局 限 。 在 一 次 科学 革命 之 后 ， 科学 发 展 的 速度 通常 会 
遵循 一 条 S 形 曲线 :首先 是 一 个 快速 发 展 时 期 ,接着 随 着 研究 人 员 受 到 严重 限制 而 逐渐 稳定 下 来 ， 
然后 进一步 的 改进 又 逐渐 增多 。 深 度 学 习 在 2017 年 似乎 处 于 这 条 S 形 曲 线 的 前 半 部 分 ， 在 未 来 
几 年 将 会 取得 更 多 进展 。 
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神经 网 络 的 数学 基础 





本 章 包括 以 下 内 容 : 

口 第 一 个 神经 网 络 示 例 

口 张 量 与 张 量 运算 

口 神经 网 络 如 何 通 过 反 向 传播 与 梯度 下 降 进行 学 习 











要 理解 深度 学 习 ， 需 要 熟悉 很 多 简单 的 数学 概念 : 张 量 、 张 量 运 算 、 微 分 、 梯 度 下 降 等 。 
本 章 目 的 是 用 不 那么 技术 化 的 文字 帮 你 建立 对 这 些 概 念 的 直觉 。 特 别 地 ， 我 们 将 避免 使 用 数学 
符号 ， 因 为 数学 符号 可 能 会 令 没 有 任何 数学 背景 的 人 反感 ， 而 且 对 解释 问题 也 不 是 绝对 必要 的 。 

本 章 将 首先 给 出 一 个 神经 网 络 的 示例 ， 引 出 张 量 和 梯度 下 降 的 概念 ， 然 后 逐个 详细 介绍 。 
请 记 住 ， 这 些 概念 对 于 理解 后 续 音 节 中 的 示例 至 关 重 要 。 

读 完 本 童 后 ， 你 会 对 神经 网 络 的 工作 原理 有 一 个 直观 的 理解 ， 然 后 就 可 以 学 习 神 经 网 络 的 
实际 应 用 了 (从 第 3 章 开始 )。 


2.1 初 识 神经 网 络 


我 们 来 看 一 个 具体 的 神经 网 络 示例 ， 使 用 Python 的 Keras 库 来 学 习 手 写 数 字 分 类 。 如 果 你 
没 用 过 Keras 或 类 似 的 库 ， 可 能 无 法 立刻 搞 懂 这 个 例子 中 的 全 部 内 容 。 甚 至 你 可 能 还 没有 安装 
Keras。 没 关系 ， 下 一 章 会 详细 解释 这 个 例子 中 的 每 个 步骤。 因此 ， 如 果 其 中 某 些 步骤 看 起 来 有 
些 随意 ， 或 者 像 魔 法 一 样 ， 也 请 你 不 要 担心 。 下 面 我 们 要 开始 了 。 

我 们 这 里 要 解决 的 问题 是 ， 将 手写 数字 的 灰 度 图 像 (28 像素 x 28 像素 ) 划分 到 10 个 类 别 
中 (0~9 )。 我 们 将 使 用 MNIST 数据 集 ， 它 是 机 带 学 习 领 域 的 一 个 经 典 数据 集 ， 其 历史 几乎 和 这 
个 领域 一 样 长 ， 而 且 已 被 人 们 深入 研究 。 这 个 数据 集 包 含 60 000 张 训练 图 像 和 10 000 张 测试 图 
像 ， 由 美国 国家 标准 与 技术 研究 院 (National Institute of Standards and Technology， 即 MNIST 中 
的 NIST ) 在 20 世纪 80 年 代 收 集 得 到 。 你 可 以 将 “解决 ”MNIST 问题 看 作 深度 学 习 的 “Hello 
World"”， 正 是 用 它 来 验证 你 的 算法 是 否 按 预期 运行 。 当 你 成 为 机 器 学 习 从 业者 后 ， 会 发 现 
MNIST 一 次 又 一 次 地 出 现在 科学 论文 ,博客 文章 等 中 。 图 2-1 给 出 了 MNIST 数据 集 的 一 些 样本 。 
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关于 类 和 标签 的 说 明 


在 机 器 学 习 中 ， 分 类 问题 中 的 某 个 类 别 叫 作 类 ( class )。 数 据点 叫 作 样 本 ( sample )。 某 
个 样本 对 应 的 类 叫 作 标签 (label )。 


O241713 


图 2-1 MNIST 数字 图 像样 本 


你 不 需要 现在 就 尝试 在 计算 机 上 运行 这 个 例子 。 但 如 果 你 想 这 么 做 的 话 ， 首 先 需 要 安装 
Keras， 安 装 方法 见 3.3 节 。 
MNIST 数据 集 预 先 加 载 在 Keras 库 中 ， 其 中 包括 4 个 Numpy 数组 。 


代码 清单 2-1 加 载 Keras 中 的 MNIST 数据 集 


from keras.datasets import mnist 








(train images, train labels), (test_images, test_labels) = mnist.load data() 


train_images 和 train_labels 组 成 了 训练 集 (training set )， 模 型 将 从 这 些 数据 中 进行 
学 习 。 然 后 在 测试 集 (test set， 即 test_images 和 test_labels ) 上 对 模型 进行 测试 。 

图 像 被 编码 为 Numpy 数组 ， 而 标签 是 数字 数组 ， 取 值 范 围 为 0~9。 图 像 和 标签 一 一 对 应 。 

我 们 来 看 一 下 训练 数据 : 

>>> train_ images .shape 

(60000, 28, 28) 

>>> len(train labels) 

60000 


>>> train labels 
array (lS O04 dy viay dr Gy Bl type=uintey) 


下 面 是 测试 数据 : 


>>> test_images.shape 

(10000, 28, 28) 

>>> len(test_labels) 

10000 

>>> test_labels 

Aarray (7 2; Ly vid; 4 5 6]; Qtype=uint) 


接 下 来 的 工作 流程 如 下 : 首先 ， 将 训练 数据 (train_images 和 train_labels ) 输入 神 
经 网 络 ; 其 次 ， 网 络 学 习 将 网 像 和 标签 关联 在 一 起 ; 最 后 ， 网 络 对 test_images 生成 预测 ， 
而 我 们 将 验证 这 些 预 测 与 test_labels 中 的 标签 是 否 匹 配 。 

下 面 我 们 来 构建 网 络 。 再 说 一 遍 ， 你 现在 不 需要 理解 这 个 例子 的 全 部 内 容 。 
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代码 清单 2-2 ”网 络 架 构 
from keras import models 
from keras import layers 


network = models.Sequential () 
network.add(layers.Dense(512, activation='relu', input_shape=(28 * 28,))) 
network.add(layers.Dense(10, activation='softmax')) 


神经 网 络 的 核心 组 件 是 层 ( layer )， 它 是 一 种 数据 处 理 模块 ， 你 可 以 将 它 看 成 数据 过 滤器 。 
进去 一 些 数据 ， 出 来 的 数据 变 得 更 加 有 用 。 具 体 来 说 ， 层 从 输入 数据 中 提取 表示 一 一 我 们 期 望 
这 种 表示 有 助 于 解决 手头 的 问题 。 大 多 数 深度 学 习 都 是 将 简单 的 层 链接 起 来 ， 从 而 实现 渐进 式 
的 数据 蒸馏 ( data distillation )。 深 度 学 习 模 型 就 像 是 数据 处 理 的 第 子 ， 包 含 一 系列 越 来 越 精细 的 
数据 过 滤器 ( 即 层 )。 

本 例 中 的 网 络 包含 2 个 Dense 层 ， 它 们 是 密集 连接 ( 也 叫 全 连接 ) 的 神经 层 。 第 二 层 (也 
是 最 后 一 层 ) 是 一 个 10 路 softmax 层 ， 它 将 返回 一 个 由 10 个 概率 值 ( 总 和 为 1 ) 组 成 的 数组 。 
每 个 概率 值 表示 当前 数字 图 像 属于 10 个 数字 类 别 中 某 一 个 的 概率 。 

要 想 训练 网 络 ， 我 们 还 需要 选择 编译 ( compile ) 步骤 的 三 个 参数 。 

口 损失 函数 (loss function ) : 网 络 如 何 衡量 在 训练 数据 上 的 性 能 ， 即 网 络 如 何 朝 着 正确 的 

方向 前 进 。 

口 优化 器 ( optimizer ) : 基于 训练 数据 和 损失 孙 数 来 更 新 网 络 的 机 制 。 

口 在 训练 和 测试 过 程 中 需要 监控 的 指标 (metric ) : 本 例 只 关心 精度 ， 即 正确 分 类 的 图 像 所 

占 的 比例 。 
后 续 两 章 会 详细 解释 损失 函数 和 优化 器 的 确切 用 途 。 











代码 清单 2-3 ”编译 步 又 


network.compile(optimizer='rmsprop', 
loss='categorical_crossentropy', 
metrics=['accuracy']) 


在 开始 训练 之 前 ， 我 们 将 对 数据 进行 预 处 理 ， 将 其 变换 为 网 络 要 求 的 形状 ， 并 缩放 到 所 
有 值 都 在 [0，1] 区 间 。 比 如 ， 之 前 训练 图 像 保存 在 一 个 uint8 类 型 的 数组 中 ， 其 形状 为 
(60000，28，28)， 取 值 区 间 为 [0， 255] 。 我 们 需要 将 其 变换 为 一 个 float32 数组 ， 其 形 
状 为 (60000，28 * 28)， 取 值 范围 为 0~1。 





代码 清单 2-4 ”准备 图 像 数 据 


train images = train images.reshape((60000, 28 * 28)) 
train images = train images.astype('float32') / 255 


test_images 
test_images 


我 们 还 需要 对 标签 进行 分 类 编码 ， 第 3 章 将 会 对 这 一 步骤 进行 解释 。 


test_images.reshape((10000, 28 * 28)) 
test_images.astype('float32') / 255 
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代码 清单 2-5 准备 标签 





from keras.utils import to_categorical 


train_ labels = to_categorical (train labels) 
test_labels = to_categorical (test_labels) 


现在 我 们 准备 开始 训练 网 络 ， 在 Keras 中 这 一 步 是 通过 调用 网 络 的 fit 方法 来 完成 的 一 一 
我 们 在 训练 数据 上 拟 合 〈fit ) 模型 。 


>>> network.fit(train images, train labels，epochs=5，patch_size=128) 








Epoch 1/5 

60000760000 [======e==ee=eesese===])'= 8 = Io88: (02524 = EC O9273 
Epoch 2/5 

SL328/60000 [|=====-======= Se==2e=e ] = ETA: 18 -= los8s: 0.1035 = ace: 0.9692 


训练 过 程 中 显示 了 两 个 数字 : 一 个 是 网 络 在 训练 数据 上 的 损失 ( loss )， 另 一 个 是 网 络 在 
训练 数据 上 的 精度 (acc )。 

我 们 很 快 就 在 训练 数据 上 达到 了 0.989 ( 98.9% ) 的 精度 。 现 在 我 们 来 检查 一 下 模型 在 测试 
集 上 的 性 能 。 

>>> test_loss, test_acc = network.evaluate (test_images, test_labels) 


>>> print('test_acc:', test_acc) 
test acc: 0.9785 


测试 集 精度 为 97.8%， 比 训练 集 精度 低 不 少 。 训 练 精度 和 测试 精度 之 间 的 这 种 差距 是 过 拟 
合 (overfit ) 造成 的 。 过 拟 合 是 指 机 器 学 习 模 型 在 新 数据 上 的 性 能 往往 比 在 训练 数据 上 要 差 ， 它 
是 第 3 章 的 核心 主题 。 

第 一 个 例子 到 这 里 就 结束 了 。 你 刚刚 看 到 了 如 何 构建 和 训练 一 个 神经 网 络 ， 用 不 到 20 行 的 
Python 代码 对 手写 数字 进行 分 类 。 下 一 章 会 详细 介绍 这 个 例子 中 的 每 一 个 步 又 ， 并 讲解 其 背后 
的 原理 。 接 下 来 你 将 要 学 到 张 量 (输入 网 络 的 数据 存储 对 象 ) 张 量 运 算 〈 层 的 组 成 要 素 ) 和 梯 
度 下 降 ( 可 以 让 网 络 从 训练 样本 中 进行 学 习 )。 


2.2 ”神经 网 络 的 数据 表示 


前 面 例子 使 用 的 数据 存储 在 多 维 Numpy 数组 中 ， 也 叫 张 量 (tensor )。 一般 来 说 ， 当 前 所 
有 机 器 学 习 系 统 都 使 用 张 量 作为 基本 数据 结构 。 张 量 对 这 个 领域 非常 重要 ， 重 要 到 Google 的 
TensorFlow 都 以 它 来 命名 。 那 么 什么 是 张 量 ? 

张 量 这 一 概念 的 核心 在 于 ， 它 是 一 个 数据 容器 。 它 包含 的 数据 几乎 总 是 数值 数据 ， 因 此 它 
是 数字 的 容器 。 你 可 能 对 矩阵 很 熟悉 ， 它 是 二 维 张 量 。 张 量 是 矩阵 向 任意 维度 的 推广 [ 注意 ， 
张 量 的 维度 ( dimension ) 通常 叫 作 轴 ( axis ) ]。 

















2.2.1 标量 《0D 张 量 ) 


仅 包含 一 个 数字 的 张 量 叫 作 标量 (scalar， 也 叫 标量 张 量 、 零 维 张 量 、0D 张 量 )。 在 Numpy 
中 ,一 个 float32 或 float64 的 数字 就 是 一 个 标量 张 量 (或 标量 数组 )。 你 可 以 用 ndim 属性 
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来 查看 一 个 Numpy 张 量 的 轴 的 个 数 。 标 量 张 量 有 0 个 轴 (naim == 0 )。 张 量 轴 的 个 数 也 叫 作 
阶 (rank )。 下 面 是 一 个 Numpy 标量 。 


>>> import numpy as np 





Ss Darray(l1l2} 
六 之 之 其 

array (12) 

>>> x.ndim 

0 


2.2.2 向量 (1D 张 量 ) 
数字 组 成 的 数组 叫 作 向 量 ( vector ) 或 一 维 张 量 ( 1D 张 量 )。 一 维 张 量 只 有 一 个 轴 。 下 面 是 


一 个 Numpy 向 量 。 





Ss>> KE Narray([la, 3; §, 14; 7]} 
S33 区 

EEaY( [LL2, 3 G TA4, 71) 

>>> X.ndim 

1 


这 个 向 量 有 5 个 元 素 ， 所 以 被 称 为 5D 向 量 。 不 要 把 5SD 向量 和 5D 张 量 弄 混 ! 5D 向 量 只 
有 一 个 轴 ， 沿 着 轴 有 5 个 维度 ， 而 5D 张 量 有 5 个 轴 ( 沿 着 每 个 轴 可 能 有 任意 个 维度 )。 维 度 
( dimensionality ) 可 以 表示 沿 着 某 个 轴 上 的 元 素 个 数 (比如 5D 向 量 )， 也 可 以 表示 张 量 中 轴 的 个 
数 (比如 5D 张 量 ), 这 有 时 会 令 人 感到 混乱 。 对 于 后 一 种 情况 , 技术 上 更 准确 的 说 法 是 5 阶 张 量 
( 张 量 的 阶 数 即 轴 的 个 数 ), 但 5D 张 量 这 种 模糊 的 写法 更 常见 。 
2.2.3” 和 矩阵 (2D 张 量 ) 

回 量 组 成 的 数组 叫 作 矩阵 ( matrix ) 或 二 维 张 量 ( 2D 张 量 )。 和 矩阵 有 2 个 轴 (通常 叫 作 行 和 
列 )。 你 可 以 将 矩阵 直观 地 理解 为 数字 组 成 的 矩形 网 格 。 下 面 是 一 个 Numpy 和 矩阵 。 

33> Ke ND rarray([[S, 78, 2 34, 0]; 


[Gy 9 3 SD Ls 
[7, 80, 4, 36, 2]]) 



































>>> X.ndim 
总 


第 一 个 轴 上 的 元 素 叫 作 行 (row )， 第 二 个 轴 上 的 元 素 叫 作 列 (column )。 在 上 面 的 例子 中 ， 
[5，78，2，34，0] 是 x 的 第 一 行 ，[5，6，7] 是 第 一 列 。 

















2.2.4 3D 张 量 与 更 高 维 张 量 


将 多 个 矩阵 组 合成 一 个 新 的 数组 ， 可 以 得 到 一 个 3D 张 量 ， 你 可 以 将 其 直观 地 理解 为 数字 
组 成 的 立方 体 。 下 面 是 一 个 Numpy 的 3D 张 量 。 
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SS = ND Aareay([[lS; 了 有 有 34; 0， 
Gy 9. 3 3 T'sy 
Ti B80. A S36 2 ;i 
[ LS; Za 2 0 
I le 
了 7 80, 4, 36 Bll 
[[5, 78, 2, 34, 0], 
Gy “719i, 3 3 Ll]y 
2 BU di 6 2111i 











>>> x.ndim 
3 


将 多 个 3D 张 量 组 合成 一 个 数组 ， 可 以 创建 一 个 4D 张 量 ， 以 此 类 推 。 深 度 学 习 处 理 的 一 般 
是 0D 到 4D 的 张 量 ,但 处 理 视频 数据 时 可 能 会 遇 到 5D 张 量 。 


2.2.5 ”关键 属性 


张 量 是 由 以 下 三 个 关键 属性 来 定义 的 。 
口 轴 的 个 数 〈 阶 )。 例 如 ，3D 张 量 有 3 个 轴 ， 和 矩阵 有 2 个 轴 。 这 在 Numpy 等 Python 库 中 
也 叫 张 量 的 ndim。 

口 形状 。 这 是 一 个 整数 元 组 ， 表 示 张 量 沿 每 个 轴 的 维度 大 小 〈 元 素 个 数 )。 例 如 ， 前 面 矩 
阵 示例 的 形状 为 43， 5) ，3D 张 量 示 例 的 形状 为 (3，3， 5)。 向 量 的 形状 只 包含 一 个 
元 素 ， 比 如 (5, ) ， 而 标量 的 形状 为 空 ， 即 () 。 

口 数据 类 型 ( 在 Python 库 中 通常 叫 作 atype )。 这 是 张 量 中 所 包含 数据 的 类 型 ， 例 如 ， 张 
量 的 类 型 可 以 是 float32、uint8、float64 等 。 在 极 少数 情况 下 ， 你 可 能 会 遇 到 字符 
(char ) 张 量 。 注 意 ，Numpy (以 及 大 多 数 其 他 库 ) 中 不 存在 字符 串 张 量 ， 因 为 张 量 存 
储 在 预先 分 配 的 连续 内 存 段 中 ， 而 字符 串 的 长 度 是 可 变 的 ， 无 法 用 这 种 方式 存储 。 

为 了 具体 说 明 ， 我 们 回头 看 一 下 MNIST 例子 中 处 理 的 数据 。 首 先 加 载 MNIST 数据 集 。 


from keras.datasets import mnist 















































(train images, train labels), (test_images, test_labels) = mnist.load data() 


接 下 来 ,我 们 给 出 张 量 train_images 的 轴 的 个 数 ， 即 ndim 属性 。 


>>> print (train images.ndim) 
3 


下 面 是 它 的 形状 。 


>>> print (train_ images.shape) 
(60000, 28, 28) 


下 面 是 它 的 数据 类 型 ， 即 atype 属性 。 


>>> print (train_ images.dtype) 
uint8 


所 以 ， 这 里 train_images 是 一 个 由 8 位 整数 组 成 的 3D 张 量 。 更 确切 地 说 ， 它 是 60 000 
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个 甜 阵 组 成 的 数组 ， 每 个 算 阵 由 28 x 28 个 整数 组 成 。 每 个 这 样 的 矩阵 都 是 一 张 灰 度 图 像 ， 元 素 
取 值 范围 为 0~255。 

我 们 用 Matplotlib 库 (Python 标准 科学 套件 的 一 部 分 ) 来 显示 这 个 3D 张 量 中 的 第 4 个 数字 ， 
如 图 2-2 所 示 。 
代码 清单 2-6 显示 第 4 个 数字 


digit = train images[4] 





import matplotlib.pyplot as plt 
plt.imshow(digit, cmap=plt.cm.binary) 
plt.show!() 





25 上 














0 10 15 20 25 


图 2-2 数据 集中 的 第 4 个 样本 





2.2.6 在 Numpy 中 操作 张 量 


在 前 面 的 例子 中 ， 我 们 使 用 语法 train_images [i] 来 选择 沿 着 第 一 个 轴 的 特定 数字 。 选 
择 张 量 的 特定 元 素 叫 作 张 量 切片 (tensor slicing )。 我 们 来 看 一 下 Numpy 数组 上 的 张 量 切 片 运 算 。 

下 面 这 个 例子 选择 第 10~100 个 数字 (不 包括 第 100 个 )， 并 将 其 放 在 形状 为 (90， 28， 
28) 的 数组 中 。 

>>> my_slice = train images[10:100] 


>>> print (my_ slice.shape) 
(90，28，28) 


它 等 同 于 下 面 这 个 更 复杂 的 写法 ， 给 出 了 切片 沿 着 每 个 张 量 轴 的 起 始 索 引 和 结束 索引 。 
注意 ，: 等 同 于 选择 整个 轴 。 

>>> my_slice = train images[10:100，:;，:] < | 等 同 于 前 面 的 例子 

>>> my_slice.shape 

(90, 28, 28) = 

>>> my_slice = train images[10:100，0:28，0:28] 4 | 也 等 同 于 前 面 的 例子 

>>> my_slice.shape 

(90, 28, 28) 
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一 般 来 说 ， 你 可 以 沿 着 每 个 张 量 轴 在 任意 两 个 索引 之 间 进 行 选择 。 例 如 ， 你 可 以 在 所 有 图 
像 的 右 下 角 选 出 14 像素 x 14 像素 的 区 域 : 





my_slice = train images[:, 14:, 14:] 

也 可 以 使 用 负数 索引 。 与 Python 列表 中 的 负数 索引 类 似 , 它 表示 与 当前 轴 终 点 的 相对 位 置 。 
你 可 以 在 图 像 中 心 裁剪 出 14 像素 x 14 像素 的 区 域 : 

my_slice = train images[:，7:-7，7:-7] 


2.2.7 ”数据 批量 的 概念 


通常 来 说 ， 深 度 学 习 中 所 有 数据 张 量 的 第 一 个 轴 (0 轴 ， 因 为 索引 从 0 开始 ) 都 是 样本 轴 
( samples axis ， 有 时 也 叫 样本 维度 )。 在 MNIST 的 例子 中 ,样本 就 是 数字 图 像 。 

此 外 ， 深 度 学 习 模 型 不 会 同时 处 理 整 个 数据 集 ， 而 是 将 数据 拆 分 成 小 批量 。 具 体 来 看 ， 下 
面 是 MNIST 数据 集 的 一 个 批量 ,批量 大 小 为 128。 


batch = train images[:128] 


然后 是 下 一 个 批量 。 


batch = train images[128:256] 


然后 是 第 n 个 批量 。 


batch = train images[128 * n:128 * (n + 1)] 


对 于 这 种 批量 张 量 ， 第 一 个 轴 (0 轴 ) 叫 作 批量 轴 ( batch axis ) 或 批量 维度 (batch dimension )。 
在 使 用 Keras 和 其 他 深度 学 习 库 时 ， 你 会 经 常 遇 到 这 个 术语 。 


2.2.8 ”现实 世界 中 的 数据 张 量 


我 们 用 几 个 你 未 来 会 遇 到 的 示例 来 具体 介绍 数据 张 量 。 你 需要 处 理 的 数据 几乎 总 是 以 下 类 
别 之 一 。 
口 向 量 数据 : 2D 张 量 ， 形 状 为 (samples，features)。 
口 时 间 序 列 数据 或 序列 数据 : 3D 张 量 ， 形 状 为 (samples， timesteps, features)。 
口 图 像 : 4D 张 量 ， 形 状 为 (samples，height，width，channels) 或 (samples，channels， 
height, width)。 
口 视频 : 5D 张 量 ， 形 状 为 (samples，frames，height，width，channels) 或 (samples， 


frames，channels，height，widqth)。 





























2.2.9 向 量 数据 


这 是 最 常见 的 数据 。 对 于 这 种 数据 集 ， 每 个 数据 点 都 被 编码 为 一 个 向量 ， 因 此 一 个 数据 批 
量 就 被 编码 为 2D 张 量 ( 即 向 量 组 成 的 数组 )， 其 中 第 一 个 轴 是 样本 轴 ， 第 二 个 轴 是 特征 轴 。 
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我 们 来 看 两 个 例子 。 

口 人 口 统计 数据 集 ， 其 中 包括 每 个 人 的 年 龄 、 邮 编 和 收入 。 每 个 人 可 以 表示 为 包含 3 个 值 
的 向 量 ， 而 整个 数据 集 包含 100 000 个 人 ， 因 此 可 以 存储 在 形状 为 (100000， 3) 的 2D 
张 量 中 。 

口 文 本 文档 数据 集 ， 我 们 将 每 个 文档 表示 为 每 个 单词 在 其 中 出 现 的 次 数 (字典 中 包含 
20 000 个 常见 单词 )。 每 个 文档 可 以 被 编码 为 包含 20 000 个 值 的 向 量 ( 每 个 值 对 应 于 
字典 中 每 个 单词 的 出 现 次 数 )， 整 个 数据 集 包 含 500 个 文档 ， 因 此 可 以 存储 在 形状 为 
(500，20000) 的 张 量 中 。 


2.2.10 时间 序 列 数据 或 序列 数据 


当时 间 (或 序列 顺序 ) 对 于 数据 很 重要 时 ， 应 该 将 数据 存储 在 带 有 时 间 轴 的 3D 张 量 中 。 
每 个 样本 可 以 被 编码 为 一 个 向 量 序列 ( 即 2D 张 量 )， 因 此 一 个 数据 批量 就 被 编码 为 一 个 3D 张 


量 ( 见 图 2-3 )。 
V4 


~ A 
时 间 步 长 
图 2-3 ”时 间 序 列 数据 组 成 的 3D 张 量 


根据 惯例 ， 时 间 轴 始终 是 第 2 个 轴 (索引 为 1 的 轴 )。 我 们 来 看 几 个 例子 。 

口 股票 价格 数据 集 。 每 一 分 钟 ， 我 们 将 股票 的 当前 价格 、 前 一 分 钟 的 最 高 价格 和 前 一 分 钟 
的 最 低 价格 保存 下 来 。 因 此 每 分 钟 被 编码 为 一 个 3D 向 量 ， 整 个 交易 日 被 编码 为 一 个 形 
状 为 (390，3) 的 2D 张 量 (一 个 交易 日 有 390 分 钟 )， 而 250 天 的 数据 则 可 以 保存 在 一 
个 形状 为 (250，390，3) 的 3D 张 量 中 。 这 里 每 个 样本 是 一 天 的 股票 数据 。 

口 推 文 数据 集 。 我 们 将 每 条 推 文 编码 为 280 个 字符 组 成 的 序列 ， 而 每 个 字符 又 来 自 于 128 
个 字符 组 成 的 字母 表 。 在 这 种 情况 下 ， 每 个 字符 可 以 被 编码 为 大 小 为 128 的 二 进 制 向 量 
(只 有 在 该 字符 对 应 的 索引 位 置 取 值 为 1， 其 他 元 素 都 为 0 )。 那 么 每 条 推 文 可 以 被 编码 
为 一 个 形状 为 (280， 128) 的 2D 张 量 ， 而 包含 100 万 条 推 文 的 数据 集 则 可 以 存储 在 一 
个 形状 为 (1000000，280，128) 的 张 量 中 。 


2.2.11 图 像 数据 


图 像 通常 具有 三 个 维度 : 高 度 、 宽 度 和 颜色 深度 。 虽 然 灰 度 图 像 ( 比如 MNIST 数字 图 像 ) 
只 有 一 个 颜色 通道 ， 因 此 可 以 保存 在 2D 张 量 中 ,但 按照 惯例 ， 图 像 张 量 始终 都 是 3D 张 量 ， 灰 
度 图 像 的 彩色 通道 只 有 一 维 。 因 此 ， 如 果 图 像 大 小 为 256 x 256， 那 么 128 张 灰 度 图 像 组 成 的 批 
量 可 以 保存 在 一 个 形状 为 (128，256，256，1) 的 张 量 中 ， 而 128 张 彩色 图 像 组 成 的 批量 则 
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可 以 保存 在 一 个 形状 为 (128，256，256，3) 的 张 量 中 ( 见 图 2-4 )。 
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se 
宽度 


图 2-4 图 像 数据 组 成 的 4D 张 量 (通道 在 前 的 约定 ) 


图 像 张 量 的 形状 有 两 种 约定 : 通道 在 后 ( channels-last ) 的 约定 (在 TensorFlow 中 使 用 ) 和 
通道 在 前 (channels-first ) 的 约定 ( 在 Theano 中 使 用 )。Google 的 TensorFlow 机 器 学 习 框 架 将 
颜色 深度 轴 放 在 最 后 : (samples，height，width,，color_depth)。 与 此 相反 ，Theano 
将 图 像 深 度 轴 放 在 批量 轴 之 后 : (samples，color_dqepth，height，wiath)。 如 果 采 
用 Theano 约定 ， 前 面 的 两 个 例子 将 变 成 (128，1， 256，256) 和 (128，3，256，256) 。 
Keras 框架 同时 支持 这 两 种 格式 。 


2.2.12 ”视频 数据 


视频 数据 是 现实 生活 中 需要 用 到 5D 张 量 的 少数 数据 类 型 之 一 。 视 频 可 以 看 作 一 系列 帧 ， 
每 一 帧 都 是 一 张 彩 色 图 像 。 由 于 每 一 帧 都 可 以 保存 在 一 个 形状 为 (height, wigth, color 
depth) 的 3D 张 量 中 ， 因 此 一 系列 帧 可 以 保存 在 一 个 形状 为 (frames，height， widgdth, 
color_depth) 的 4D 张 量 中 ， 而 不 同 视频 组 成 的 批量 则 可 以 保存 在 一 个 5D 张 量 中 ， 其 形状 为 
(Samples，frames，height，wiath，color_dqepth) 。 

举 个 例子 ， 一 个 以 每 秒 4 帧 采样 的 60 秒 YouTube 视频 片段 ， 视 频 尺 寸 为 144 x 256， 这 个 
视频 共有 240 帧 。4 个 这 样 的 视频 片段 组 成 的 批量 将 保存 在 形状 为 (4， 240，144，256， 3) 
的 张 量 中 。 总 共有 106 168 320 个 值 ! 如 果 张 量 的 数据 类 型 ( atype ) 是 float32， 每 个 值 都 是 
32 位 ,那么 这 个 张 量 共 有 405MB。 好 大 ! 你 在 现实 生活 中 遇 到 的 视频 要 小 得 多 ， 因 为 它们 不 以 
float32 格式 存储 ， 而 且 通 常 被 大 大 压缩 ， 比 如 MPEG 格式 。 


2.3 ”神经 网 络 的 “齿轮 ”: 张 量 运算 


所 有 计算 机 程序 最 终 都 可 以 简化 为 二 进 制 输入 上 的 一 些 二 进 制 运算 (AND 、OR 、NOR 等 )， 
与 此 类 似 , 深度 神经 网 络 学 到 的 所 有 变换 也 都 可 以 简化 为 数值 数据 张 量 上 的 一 些 张 量 运算 (tensor 
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operation )， 例 如 加 上 张 量 、 乘 以 张 量 等 。 
在 最 开始 的 例子 中 ， 我 们 通过 县 加 Dense 层 来 构建 网 络 。Keras 层 的 实例 如 下 所 示 。 


keras.layers.Dense(512, activation='relu') 


这 个 层 可 以 理解 为 一 个 函数 ， 输 入 一 个 2D 张 量 ， 返 回 另 一 个 2D 张 量 ， 即 输入 张 量 的 新 
表示 。 具 体 而 言 ， 这 个 函数 如 下 所 示 ( 其 中 w 是 一 个 2D 张 量 ，b 是 一 个 向 量 ， 二 者 都 是 该 层 的 
属性 )。 

output = relul(dot (W, input) + b) 

我 们 将 上 式 拆 开 来 看 。 这 里 有 三 个 张 量 运算 : 输入 张 量 和 张 量 w 之 间 的 点 积 运 算 ( got )、 
得 到 的 2D 张 量 与 向 量 b 之 间 的 加 法 运算 (+ )、 最 后 的 relu 运算 。relu(x) 是 max(x，0)。 



































注意 虽然 本 节 的 内 容 都 是 关于 线性 代数 表达 式 ， 但 你 却 找 不 到 任何 数学 符号 。 我 发 现 ， 对 于 
没有 数学 背景 的 程序 员 来 说 ， 如 果 用 简短 的 Python 代码 而 不 是 数学 方程 来 表达 数学 概念 ， 
他 们 将 更 容易 掌握 。 所 以 我 们 自始至终 将 会 使 用 Numpy 代码 。 


2.3.1， 逐 元 素 运算 


relu 运算 和 加 法 都 是 逐 元 素 (element-wise ) 的 运算 ， 即 该 运算 独立 地 应 用 于 张 量 中 的 每 
个 元 素 ， 也 就 是 说 ， 这 些 运 算 非 常 适合 大 规模 并 行 实现 〈 向 量化 实现 ， 这 一 术语 来 自 于 1970 一 
1990 年 间 向 量 处 理 器 超级 计算 机 架构 )。 如 果 你 想 对 逐 元 素 运 算 编写 简单 的 Python 实现 ， 那 么 
可 以 用 for 循环 。 下 列 代码 是 对 逐 元 素 relu 运算 的 简单 实现 。 


def naive_relu(X) : 
assert len(x.shape) == 2 < 一 x 是 一 个 Numpy 的 2D 张 量 

















x = XxX.copy () -一 避免 覆盖 输入 张 量 
for i in range(x.shape[0]): 
for j in range(x.shapel[1]): 








[i] ma (i; J 0) 
return 入 
对 于 加 法 采用 同样 的 实现 方法 。 
def naive _ add (x, y): 百 人 = 
assert lenl(x.shape) == 2 ， |* 和 y 是 Numpy 的 2D 张 量 
assert x.shape == y.shape 





X = X.copy() 
for i in range(x.shape[0]): 避免 覆盖 输入 张 量 
] 


for j in range(x.shapel[ll1 
x[i, j] += y[i, j] 
return xX 
根据 同样 的 方法 ， 你 可 以 实现 逐 元 素 的 乘法 、 减 法 等 。 
在 实践 中 处 理 Numpy 数组 时 ， 这 些 运 算 都 是 优化 好 的 Numpy 内 置 函数 ， 这 些 函 数 将 大 量 
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运算 交 给 安装 好 的 基础 线性 代数 子 程序 (BLAS ，basic linear algebra subprograms ) 实现 ( 没 装 
的 话 ， 应 该 装 一 个 )。BLAS 是 低层 次 的 、 高 度 并 行 的 、 高 效 的 张 量 操作 程序 ， 通 常用 Fortran 
或 C 语言 来 实现 。 

因此 ,在 Numpy 中 可 以 直接 进行 下 列 逐 元 素 运 算 ， 速 度 非常 快 。 


import numpy as np 











z=X+y ”< 一 逐 元 素 的 相 加 


z = np.maximum(z, 0.) < 一 逐 元 素 的 relu 


2.3.2 广播 


上 一 节 naive_aqq 的 简单 实现 仅 支 持 两 个 形状 相同 的 2D 张 量 相 加 。 但 在 前 面 介绍 的 
Dense 层 中 ， 我 们 将 一 个 2D 张 量 与 一 个 向 量 相 加 。 如 果 将 两 个 形状 不 同 的 张 量 相 加 ， 会 发 生 
什么 ? 

如 果 没 有 歧义 的 话 ， 较 小 的 张 量 会 被 广播 (broadcast )， 以 匹配 较 大 张 量 的 形状 。 广 播 包 含 
以 下 两 步 。 

(1) 向 较 小 的 张 量 添 加 轴 ( 叫 作 广播 轴 )， 使 其 ndaim 与 较 大 的 张 量 相同 。 

(2) 将 较 小 的 张 量 沿 着 新 轴 重 复 ， 使 其 形状 与 较 大 的 张 量 相同 。 

来 看 一 个 具体 的 例子 。 假 设 X 的 形状 是 (32， 10) ，y 的 形状 是 (10,)。 首 先 ， 我 们 给 y 
添加 空 的 第 一 个 轴 ， 这 样 y 的 形状 变 为 (1， 10) 。 然 后 ， 我 们 将 y 沿 着 新 轴 重 复 32 次 ， 这 样 
得 到 的 张 量 Y 的 形状 为 (32，10), 并 且 Y[i，:] == y for i in range(0，32)。 现 在 ， 
我 们 可 以 将 x 和 YY 相 加 ， 因 为 它们 的 形状 相同 。 

在 实际 的 实现 过 程 中 并 不 会 创建 新 的 2D 张 量 ， 因 为 那样 做 非常 低 效 。 重 复 的 操作 完全 是 
虚拟 的 ， 它 只 出 现在 算法 中 ， 而 没有 发 生 在 内 存 中 。 但 想象 将 向 量 沿 着 新 轴 重 复 10 次 ， 是 一 
很 有 用 的 思维 模型 。 下 面 是 一 种 简单 的 实现 。 


def naive_ adqd matrix angd_ Vector (x, y): 









































assert len(x.shape) == 2 一 是 一 个 Numpy 的 2D 张 量 
assert lenl(ly.shape) == 1 一 Y 是 一 个 Numpy 向 量 
assert x.shapel[l1l] == y.shapel0] 

x = X.copy () 一 避免 覆盖 输入 张 量 


for i in zange(x.sShape[0]) : 
for j in range(X.sShape[1]) : 
x[i, j] += y[j] 
return X 
如 果 一 个 张 量 的 形状 是 (a，b，... n，n+1，... m)， 男 一 个 张 量 的 形状 是 (n，n+1,， 
... m) ， 那 么 你 通常 可 以 利用 广播 对 它们 做 两 个 张 量 之 间 的 逐 元 素 运算 。 广 播 操作 会 自动 应 用 
于 从 a 到 n-1 的 轴 。 
下 面 这 个 例子 利用 广播 将 逐 元 素 的 maximum 运算 应 用 于 两 个 形状 不 同 的 张 量 。 
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import numpy as np 


x = np.random.random( (64, 3, 32, 10)) < 一 x 是 形状 为 (64，3，32，10) 的 随机 张 量 
y = np.random.random( (32, 10)) < 一 Y 是 形状 为 (32，10) 的 随机 张 量 
z = np.maximum(x, y) < 一 输出 z 的 形状 是 (64，3，32，10), 与 x 相同 

2.3.3” 张 量 点 积 


点 积 运 算 ， 也 叫 张 量 积 ( tensor product， 不 要 与 逐 元 素 的 乘积 弄 混 )， 是 最 常见 也 最 有 用 的 


张 量 运算 。 与 逐 元 素 的 运算 不 同 ， 它 将 输入 张 量 的 元 素 合 并 在 一 起 。 





在 Numpy、Keras 、Theano 和 TensorFlow 中 ， 都 是 用 * 实现 逐 元 素 乘积 。TensorFlow 中 的 

















点 积 使 用 了 不 同 的 语法 ， 但 在 Numpy 和 Keras 中 ， 都 是 用 标准 的 dot 运算 符 来 实现 点 积 。 


import numpy as np 


多 三 np. dot (x; Y) 


数学 符号 中 的 点 (. ) 表示 点 积 运 算 。 


= 


从 数学 的 角度 来 看 ， 点 积 运算 做 了 什么 ?我 们 首先 看 一 下 两 个 向 量 x 和 y 的 点 积 。 其 
过 程 如 下 。 


def naive_vector_ dot (x 


2 
assert len(x.shape) == 1 | 于 i 
assert lenly.shape) == 1 x 和 Y 都 是 Numpy 向 量 
assert x.shape[0] == y.shape[0] 


问 0 

for i in range(x.shape[0]): 
z += X[i] * y[i] 

returm 有 Z 


意 ， 两 个 向 量 之 间 的 点 积 是 一 个 标量 ， 而 且 只 有 元 素 个 数 相同 的 向 量 之 间 才 能 做 点 积 。 














人 还 可 以 对 一 个 矩阵 x 和 一 个 向 量 y 做 点 积 ， 返 回 值 是 一 个 向 量 ， 其 中 每 个 元 素 是 y 和 x 


的 每 一 行 之 间 的 点 积 。 其 实现 过 程 如 下 。 


import numpy as np 


def naive matrix vector_dot 


x, y): | x 是 一 个 Numpy 和 矩阵 





( 
assert lenl(x.shape) == 2 
assert len(ly.shape) == 1 一 Y 是 一 个 Numpy 向 量 
assert x.shape[1] == y.shape[0] < 一 x 的 第 1 维和 Yy 的 第 0 维 大 小 必须 相同 
Z = np.zZeros(x.shape[l0]) 


for i in range(x.shape[0]) 


for j in range(x.shapel[1]): 这 个 运算 返回 一 个 全 是 0 的 向 量 ， 
El 0 a Al 其 形状 与 x.shape[0] 相同 


return Z 
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你 还 可 以 复 用 前 面 写 过 的 代码 ， 从 中 可 以 看 出 矩阵 一 癌 量 点 积 与 向 量 点 积 之 间 的 关系 。 


def naive matrix vector_ dot (x, y): 
Zz = np.zeros(x.shape[0]) 
for i in range(x.shape[0]): 


z[i] = naive vector_ dot (x[i, :], y) 
return Z 





注意 ， 如 果 两 个 张 量 中 有 一 个 的 naim 大 于 1， 那么 dot 运算 就 不 再 是 对 称 的 ， 也 就 是 说 ， 
dot (x, Y) es dot (y, XxX}so 


当然 ， 点 积 可 以 推广 到 具有 任意 个 轴 的 张 量 。 最 常见 的 应 oe bE 就 是 两 个 矩阵 之 间 的 点 


对 于 两 个 矩阵 x 和 yy， 当 且 仅 当 x.shape[1] == y.shape[0] 时 ， We 它们 做 点 积 


(dot (x，y) )。 得 到 的 结果 是 一 个 形状 为 (x.shape[0]，y .shape[1]) 的 和 矩阵， 其 元 素 为 x 
的 行 与 y 的 列 之 间 的 点 积 。 其 简单 实现 如 下 。 





避 。 





def naive matrix dot (x 


# 





Y) 
x 和 Y 都 assert len (X.Shape) == 2 
assert lenly.shape) == 2 _ _、 
是 Numpy assert X.Shape[1] == y.shape[0] < | * 的 第 1 维和 Y 的 第 0 维 大 小 必须 相同 
矩阵 
z = np.zeros((X.Shape[0]，Yy.shape[1])) | 这 个 运算 返回 特定 形状 的 零 矩 阵 
for i in trange(x.shape[0]) : -一 遍历 x 的 所 有 行 …… 
for j in range(y.shape[1]) : 一 然后 遍历 yx 的 所 有 列 
WE 三 ; 次 [二 汉 ] 
column y = y[:, j] 
z[i, j] = naive_ vector_dot (row x, column y) 





return Zz 


为 了 便于 理解 点 积 的 形状 匹配 ， 可 以 将 输入 张 量 和 输出 张 量 像 图 2-5 中 那样 排列 ， 利 用 可 
视 化 来 帮助 理解 。 
































一 一 一 人 一 一 一 ~ 
2 
y.shape 
(b, &) 
XxX 入 三 受 
p< y 的 列 
b 
a ~ 了 
X.Shape Lh Z.Shape 
(a, b) 1 (a, Cc) 
a 
“局 四 
上-- [ ] 
x 的 行 re 

















图 2-5 图 解 和 矩阵 点 积 
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图 2-5 中 ,x、y 和 = 都 用 矩形 表示 《元 素 按 矩 形 排列 )。x 的 行 和 yy 的 列 必须 大 小 相同 ， 
此 x 的 宽度 一 定 等 于 y 的 高 度 。 如 果 你 打算 开发 新 的 机 带 学 习 算 法 ， 可 能 经 常 要 夯 这 种 图 。 

更 一 般 地 说 ， 你 可 以 对 更 高 维 的 张 量 做 点 积 ， 只 要 其 形状 匹配 遵循 与 前 面 2D 张 量 相同 的 
原则 : 





(a by Gr a) ss dry -= (a Br ©) 
(a, b, ¢, dd) . (d, ee) -> (a, b, cc, e) 
以 此 类 推 。 


2.3.4” 张 量变 形 

第 三 个 重要 的 张 量 运 算是 张 量变 形 ( tensor reshaping )。 虽 然 前 面神经 网 络 第 一 个 例子 的 
Dense 层 中 没有 用 到 它 ， 但 在 将 图 像 数据 输入 神经 网 络 之 前 ， 我 们 在 预 处 理 时 用 到 了 这 个 运算 。 

train_ images = train images.reshape( (60000, 28 * 28)) 

张 量 变形 是 指 改变 张 量 的 行 和 列 ， 以 得 到 想 要 的 形状 。 变 形 后 的 张 量 的 元 素 总 个 数 与 初始 
张 量 相同 。 简 单 的 例子 可 以 帮助 我 们 理解 张 量变 形 。 


S33 xX = Darray ( 





























EO cad 
[2 
Ee 
>>> print (x.shape) 
(3 法 .用 


>>> xX = x.reshape((6, 1)) 





>>> x 
[下 人 
| 
ls 
3 
此 > 
Gra]) 
>>> X = x.reshape( (2, 3)) 
> 
Aa 
3 dap Sally) 





经 常 遇 到 的 一 种 特殊 的 张 量 变形 是 转 置 (transposition )。 对 矩阵 做 转 置 是 指 将 行 和 列 互 换 ， 
使 x[i，:] 变 为 x[:，i]。 

>>> x = np.zeros( (300, 20)) < 一 创建 一 个 形状 为 (300，20) 的 零 矩 阵 

>>> X = np.transpose (x) 


>>> print (x.shape) 
(20, 300) 





2.3.5” 张 量 运 算 的 几何 解释 
对 于 张 量 运 算 所 操作 的 张 量 ， 其 元 素 可 以 被 解释 为 某 种 几何 空间 内 点 的 坐标 ， 因 此 所 有 的 
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张 量 运 算 都 有 几何 解释 。 举 个 例子 ， 我 们 来 看 加 法 。 首 先 有 这 样 一 个 向 量 : 
| 


它 是 二 维 空间 中 的 一 个 点 ( 见 图 2-6 )。 常 见 的 做 法 是 将 向 量 描绘 成 原点 到 这 个 点 的 箭头 ， 
如 图 2-7 所 示 。 























1 A nm [0.5,1] | A [0.5,1] 
1 1 
> > 
图 2-6 二 维 空 间 中 的 一 个 点 图 2-7 将 二 维 空 间 中 的 一 个 点 描绘 成 一 个 箭 3 
假设 又 有 一 个 点 : B = [1，0.25] ,将 它 与 前 面 的 A 相 加 。 从 几何 上 来 看 ， 这 相当 于 将 两 


个 向 量 第 关连 在 一 起 ,得 到 的 位 置 表示 两 个 向 量 之 和 对 应 的 向 量 ( 见 图 2-8 )。 











图 2-8 ”两 个 向 量 之 和 的 几何 解释 


通常 来 说 ， 仿 射 变换 、 旋 转 、 缩 放 等 基本 的 几何 操作 都 可 以 表示 为 张 量 运算 。 举 个 例子 ， 要 将 
一 个 二 维 向 量 旋转 theta 角 ， 可 以 通过 与 一 个 2x 2 矩阵 做 点 积 来 实现 ， 这 个 矩阵 为 R = [u，v]， 其 


一 人、 


中 vu 和 v 都 是 平面 向 量 : u = [cos(theta), sin(theta)], v = [-sin(theta)，cos(theta)]。 
2.3.6 深度 学 习 的 几何 解释 

前 面 讲 过 ， 神 经 网 络 完 全 由 一 系列 张 量 运算 组 成 ， 而 这 些 张 量 运算 都 只 是 输入 数据 的 几何 
变换 。 因 此 ， 你 可 以 将 神经 网 络 解释 为 高 维 空间 中 非常 复杂 的 几何 变换 ， 这 种 变换 可 以 通过 许 
多 简单 的 步骤 来 实现 。 

对 于 三 维 的 情况 ， 下 面 这 个 思维 图 像 是 很 有 用 的 。 想 象 有 两 张 彩 纸 : 一 张 红 色 ， 一 张 蓝 色 。 
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将 其 中 一 张 纸 放 在 另 一 张 上 。 现 在 将 两 张 纸 一 起 揉 成 小 球 。 这 个 皱 巴 巴 的 纸 球 就 是 你 的 输入 数 
据 ， 每 张 纸 对 应 于 分 类 问题 中 的 一 个 类 别 。 神 经 网 络 (或 者 任何 机 需 学 习 模型 ) 要 做 的 就 是 找 
到 可 以 让 纸 球 恢复 平整 的 变换 ， 从 而 能 够 再 次 让 两 个 类 别 明 确 可 分 。 通 过 深度 学 习 ， 这 一 过 程 
可 以 用 三 维 空间 中 一 系列 简单 的 变换 来 实现 ， 比 如 你 用 手指 对 纸 球 做 的 变换 ， 每 次 做 一 个 动作 ， 
如 图 2-9 所 示 。 
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图 2-9 解 开 复杂 的 数据 流 形 


让 纸 球 恢复 平整 就 是 机 需 学 习 的 内 容 : 为 复杂 的 、 高 度 折 县 的 数据 流 形 找到 简洁 的 表示 。 
现在 你 应 该 能 够 很 好 地 理解 ， 为 什么 深度 学 习 特别 擅长 这 一 点 : 它 将 复杂 的 几何 变换 逐步 分 解 
为 一 长 串 基 本 的 几何 变换 ， 这 与 人 类 展开 纸 球 所 采取 的 策略 大 致 相同 。 深 度 网 络 的 每 一 层 都 通 
过 变换 使 数据 解 开 一 点 点 一 一 许多 层 堆 一 在 一 起 ， 可 以 实现 非常 复杂 的 解 开 过 程 。 


2.4 神经 网 络 的 “引擎 ”: 基于 梯度 的 优化 
上 一 节 介绍 过 ， 我 们 的 第 一 个 神经 网 络 示例 中 ， 每 个 神经 层 都 用 下 述 方法 对 输入 数据 进行 


变换 。 


output = relu(dot (W, input) + b) 


在 这 个 表达 式 中 ,，w 和 bb 都 是 张 量 ， 均 为 该 层 的 属性 。 它 们 被 称 为 该 层 的 权重 ( weight ) 或 
可 训练 参数 (trainable parameter )， 分 别 对 应 kernel 和 bias 属性 。 这 些 权 重 包 含 网 络 从 观察 
训练 数据 中 学 到 的 信息 。 

一 开始 ， 这 些 权重 矩阵 取 较 小 的 随机 值 ， 这 一 步 叫 作 随机 初始 化 〈random initialization )。 
当然 ,WwW 和 都 是 随机 的 ，relu(daot (W， :input) + pb) 肯定 不 会 得 到 任何 有 用 的 表示 。 虽 然 
得 到 的 表示 是 没有 意义 的 ， 但 这 是 一 个 起 点 。 下 一 步 则 是 根据 反馈 信号 逐渐 调节 这 些 权重 。 这 
个 逐渐 调节 的 过 程 叫 作 训练 ， 也 就 是 机 器 学 习 中 的 学 习 。 

上 述 过 程 发生 在 一 个 训练 循环 (training loop ) 内 ， 其 具体 过 程 如 下 。 必 要 时 一 直 重 复 这 些 
步骤 。 

(1) 抽取 训练 样本 x 和 对 应 目标 y 组 成 的 数据 批量 。 

(2) 在 x 上 运行 网 络 [ 这 一 步 叫 作 前 向 传播 〈 forward pass ) |]， 得 到 预测 值 y_pred。 

(3) 计算 网 络 在 这 批 数据 上 的 损失 ， 用 于 衡量 y_pred 和 y 之 间 的 距离 。 

(4) 更 新 网 络 的 所 有 权重 ， 使 网 络 在 这 批 数据 上 的 损失 略微 下 降 。 

最 终 得 到 的 网 络 在 训练 数据 上 的 损失 非常 小 ， 即 预测 值 >_preq 和 预期 目标 y 之 间 的 距离 
非常 小 。 网 络 “ 学 会 ”将 输入 映射 到 正确 的 目标 。 乍 一 看 可 能 像 魔法 一 样 ， 但 如 果 你 将 其 简化 
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为 基本 步骤 ， 那 么 会 变 得 非常 简单 。 
第 一 步 看 起 来 非常 简单 ， 只 是 输入 /输出 (1O ) 的 代码 。 第 二 步 和 第 三 步 仅 仅 是 一 些 张 量 


























络 的 权重 。 考 虑 网 络 中 某 个 权重 系数 , 你 怎么 知道 这 个 系数 应 该 增 大 还 是 减 小 , 以 及 变化 多 少 ? 

一 种 简单 的 解决 方案 是 ， 保 持 网 络 中 其 他 权重 不 变 ， 只 考虑 某 个 标量 系数 ， 让 其 尝试 不 同 
的 取 值 。 假 设 这 个 系数 的 初始 值 为 0.3。 对 一 批 数据 做 完 前 向 传播 后 ， 网 络 在 这 批 数 据 上 的 损失 
是 0.5。 如 果 你 将 这 个 系数 的 值 改 为 0.35 并 重新 运行 前 向 传播 ， 损 失 会 增 大 到 0.6。 但 如 果 你 将 
这 个 系数 减 小 到 0.25， 损 失 会 减 小 到 0.4。 在 这 个 例子 中 ， 将 这 个 系数 减 小 0.05 似乎 有 助 于 使 
损失 最 小 化 。 对 于 网 络 中 的 所 有 系数 都 要 重复 这 一 过 程 。 

但 这 种 方法 是 非常 低 效 的 ， 因 为 对 每 个 系数 (系数 很 多 ， 通 常 有 上 千 个 ， 有 时 甚至 多 达 上 
百 万 个 ) 都 需要 计算 两 次 前 向 传播 (计算 代价 很 大 )。 一 种 更 好 的 方法 是 利用 网 络 中 所 有 运算 都 
是 可 微 (differentiable ) 的 这 一 事实 ， 计 算 损 失 相 对 于 网 络 系数 的 梯度 (gradient )， 然 后 向 梯度 
的 反方 向 改变 系数 ， 从 而 使 损失 降低 。 

如 果 你 已 经 了 解 可 微 和 梯度 这 两 个 概念 ， 可 以 直接 跳 到 2.4.3 节 。 如 果 不 了 解 ， 下 面 两 小 节 
有 助 于 你 理解 这 些 概念 。 


2.4.1 什么 是 导数 


假设 有 一 个 连续 的 光滑 函数 f(x) = y ,将 实数 x 映射 为 男 一 个 实数 y。 由 于 函数 是 连续 的 ， 
x 的 微小 变化 只 能 导致 y 的 微小 变化 一 一 这 就 是 函数 连续 性 的 直观 解释 。 假 设 x 增 大 了 一 个 很 
小 的 因子 epsilon_x， 这 导致 y 也 发 生 了 很 小 的 变化 ， 即 epsilon_y: 


f(x + epsilon x) = y + epsilon y 


此 外 ， 由 于 函数 是 光滑 的 ( 即 函 数 曲线 没有 突变 的 角度 )， 在 某 个 点 p 附近 ， 如 果 epsilon_x 
足够 小 , 就 可 以 将 £ 近似 为 斜率 为 a 的 线性 函数 ,这样 epsilon_y 就 变 成 了 a * epsilon_x: 


f(x + epsilon x) =y +a * epsilon x 


显然 ， 只 有 在 x 足够 接近 pp 时， 这 个 线性 近似 才 有 效 。 

斜率 a 被 称 为 £ 在 p 点 的 导数 ( derivative )。 如果 a 是 负 的 ,说 明 x 在 p 点 附近 的 微小 变 
化 将 导致 f (x) 减 小 (如 图 2-10 所 示 ); 如 果 a 是 正 的 ， 那么 x 的 微小 变化 将 导致 { (x) 增 大 。 
此 外 ，a 的 绝对 值 ( 导数 大 小 ) 表示 增 大 或 减 小 的 速度 快慢 。 


















































函数 f 的 局 部 线性 近似 ， 





图 2-10 ff 在 p 点 的 导数 
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对 于 每 个 可 微 函 数 £( I i 思 是 “可 以 被 求 导 ”。 例 如 ,光滑 的 连续 函数 可 以 被 求 导 )， 
都 存在 一 个 导数 函数 f' (x) ， 将 x 的 值 映射 为 工 ei 性 近似 的 斜率 。 例 如 ，cos (x) 
的 导数 是 -sin(x)，f(x) = a * x 的 导数 是 f' = a， 等 等 。 

如 果 你 想 要 将 x 改变 一 个 小 因子 epsilon_x， 4 f(x) 最 小 化 , 并且 知道 £ 的 导数 ， 
那么 问题 解决 了 : 导数 完全 描述 了 改变 x 后 E(x) 会 如 何 变化 。 加 是 信 天 刘 凡人 f(x) 的 值 ， 只 
需 将 六 沿 着 导数 的 反方 向 移动 一 小 步 。 


2.4.2” 张 量 运 算 的 导数 : 梯度 


梯度 (gradient ) 是 张 量 运算 的 导数 。 它 是 导数 这 一 概念 向 多 元 函数 导数 的 推广 。 多 元 函数 
是 以 张 量 作为 输入 的 函数 。 
假设 有 一 个 输入 向 量 x、 一 个 矩阵 WwW、 一 个 目标 y 和 一 个 损失 函数 loss。 你 可 以 用 Ww 来 计 
算 预 测 值 y_pre9G， 然 后 计算 损失 ,或 者 说 预测 值 y_pred 和 目标 y 之 间 的 距离 。 


y_pred = dot (W, x) 
loss_value = loss(y_pred, y) 


如 果 输 入 数据 x 和 y 保持 不 变 ， 那么 这 可 以 看 作 将 Ww 映射 到 损失 值 的 函数 。 


loss_value = f(W) 


假设 w 的 当前 值 为 w0。f 在 wo 点 的 导数 是 一 个 张 量 gradient (E) (Ww0) ,其 形状 与 w 相同 ， 
每 个 系数 gradient (f) (Ww0) [i，j] 表示 改变 w0[i，j] 时 1oss_value 变化 的 方向 和 大 小 。 
张 量 gradient (f) (WO) ee f(W) = loss_value 在 WO 的 导数 。 
前 面 已 经 看 到 ， 单 变量 函数 E(x) 的 导数 可 以 看 作 函 数 £ 曲线 的 斜率 。 同 样 ，gradient (f£) 
(WO) ee 和 i ee ( curvature ) 的 张 量 。 
对 于 一 个 函数 £( EE 向 导数 的 反方 向 移动 一 小 步 来 减 小 f(x) 的 值 。 同 
样 ， 对 于 坏 生 的 国 数 生 f(W) ， 你 也 可 以 通过 将 亦 回 梯度 的 反方 向 移动 来 减 小 E(W) ， 四 W1 = 
W0 - step * gradient(f) (WO0) ， 其 中 step 是 一 个 很 小 的 比例 因子 。 也 就 是 说 ， 沿 着 曲 
率 的 反方 向 移动 ， 直 观 上 来 看 在 曲线 上 的 位 置 会 更 低 。 注 意 ， 比 例 因子 step at 因为 
gradient (E) (W0) 只 是 wo 附近 曲率 的 近似 值 ， 不 能 离 wo 太 远 。 


2.4.3 ”随机 梯度 下 降 


给 定 一 个 可 微 函 数 ， 理 论 上 可 以 用 解析 法 找到 它 的 最 小 值 ， 函 数 的 最 小 值 是 导数 为 0 的 点 ， 
因此 你 只 需 找 到 所 有 导数 为 0 的 点 ， 然 后 计算 函数 在 其 中 哪个 点 具有 最 小 值 。 

将 这 一 方法 应 用 于 神经 网 络 ， 就 是 用 解析 法 求 出 最 小 损失 函数 对 应 的 所 有 权重 值 。 可 以 通 
过 对 方程 gradient (f) (WwW) = 0 求解 Ww 来 实现 这 一 方法 。 这 是 包含 NN 个 变量 的 多 项 式 方程 ， 
其 中 是 网 络 中 系数 的 个 数 。N=2 或 N=3 时 可 以 对 这 样 的 方程 求解 ， 但 对 于 实际 的 神经 网 络 是 
无 法 求解 的 ， 因 为 参数 的 个 数 不 会 少 于 几 千 个 ， 而 且 经 常 有 上 千 万 个 。 

相反 ， 你 可 以 使 用 2.4 节 开 头 总 结 的 四 步 算法 : 基于 当前 在 随机 数据 批量 上 的 损失 ， 一 点 
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一 点 地 对 参数 进行 调节 。 由 于 人 处理 的 是 一 个 可 微 函数 ， 你 可 以 计算 出 它 的 梯度 ， 从 而 有 效 地 实 
现 第 四 步 。 沿 着 梯度 的 反方 向 更 新 权重 ,损失 每 次 都 会 变 小 一 点 。 

(1) 抽取 训练 样本 x 和 对 应 目标 y 组 成 的 数据 批量 。 

(2) 在 x 上 运行 网 络 ， 得 到 预测 值 y_pred。 

(3) 计算 网 络 在 这 批 数据 上 的 损失 ， 用 于 衡量 y_pred 和 y 之 间 的 距离 。 

(4) 计算 损失 相对 于 网 络 参数 的 梯度 [ 一 次 反 向 传播 ( backward pass ) ]。 

(5) 将 参数 沿 着 梯度 的 反方 向 移动 一 点 ， 比 如 W -= step * gradient， 从 而 使 这 批 数 据 

上 的 损失 减 小 一 点 。 

这 很 简单 ! 我 刚刚 描述 的 方法 叫 作 小 批量 随机 梯度 下 降 ( mini-batch stochastic gradient descent， 
又 称 为 小 批量 SGD )。 术语 随机 (stochastic ) 是 指 每 批 数据 都 是 随机 抽取 的 〈stochastic 是 random 
在 科学 上 的 同义词 )。 图 2-11 给 出 了 一 维 的 情况 , 网 络 只 有 一 个 参数 , 并 且 只 有 一 个 训练 样本 。 


























损失 值 个 一 步 长 (step) ， 也 叫 学 习 率 (learning rate) 
起 点 〈 上 0) 











参数 全 
图 2-11 沿 着 一 维 损失 函数 曲线 的 随机 梯度 下 降 (一 个 需要 学 习 的 参数 ) 


如 你 所 见 ， 直 观 上 来 看 ， 为 step 因子 选取 合适 的 值 是 很 重要 的 。 如 果 取 值 太 小 ， 则 党 
曲线 的 下 降 需 要 很 多 次 迭代 ， 而 且 可 能 会 陷入 局 部 极 小 点 。 如 果 取 值 太 大 ， 则 更 新 权重 值 之 后 
可 能 会 出 现在 曲线 上 完全 随机 的 位 置 。 

注意 ， 小 批量 SGD 算法 的 一 个 变 体 是 每 次 迭代 时 只 抽取 一 个 样本 和 目标 ， 而 不 是 抽取 一 批 
数据 。 这 叫 作 真 SGD ( 有 别 于 小 批量 SGD )。 还 有 男 一 种 极端 ， 每 一 次 迭代 都 在 所 有 数据 上 
运行 ， 这 叫 作 批 量 SGD。 这 样 做 的 话 ， 每 次 更 新 都 更 加 准确 ,但 计算 代价 也 高 得 多 。 这 两 个 极 
端 之 间 的 有 效 折 中 则 是 选择 合理 的 批量 大 小 。 

图 2-11 描述 的 是 一 维 参数 空间 中 的 梯度 下 降 , 但 在 实践 中 需要 在 高 维 空 间 中 使 用 梯度 下 降 。 
神经 网 络 的 每 一 个 权重 参数 都 是 空间 中 的 一 个 自由 维度 ， 网 络 中 可 能 包含 数 万 个 甚至 上 百 万 个 
参数 维度 ,为 了 让 你 对 损失 曲面 有 更 直观 的 认识 ,你 还 可 以 将 梯度 下 降 沿 着 二 维 损 失 曲 面 可 视 化 ， 
如 图 2-12 所 示 。 但 你 不 可 能 将 神经 网 络 的 实际 训练 过 程 可 视 化 ， 因 为 你 无 法 用 人 类 可 以 理解 的 
方式 来 可 视 化 1 000 000 维 空 间 。 因 此 最 好 记 住 ， 在 这 些 低 维 表 示 中 形成 的 直觉 在 实践 中 不 一 定 
总 是 准确 的 。 这 在 历史 上 一 直 是 深度 学 习 人 研究 的 问题 来 源 。 







































































Q 这 两 个 单词 的 中 文 意思 都 是 “随机 的 ”。 一 一 译 者 注 
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终点 




















图 2-12 沿 着 二 维 损失 曲面 的 梯度 下 降 ( 两 个 需要 学 习 的 参数 ) 


此 外 ，SGD 还 有 多 种 变 体 ， 其 区 别 在 于 计算 下 一 次 权重 更 新 时 还 要 考虑 上 一 次 权重 更 新 ， 
而 不 是 仅仅 考虑 当前 梯度 值 ， 比 如 带动 量 的 SGD、Adagrad、RMSProp 等 变 体 。 这 些 变 体 被 称 
为 优化 方法 (optimization method ) 或 优化 器 ( optimizer )。 其 中 动量 的 概念 尤其 值得 关注 ， 它 在 
许多 变 体 中 都 有 应 用 。 动 量 解决 了 SGD 的 两 个 问题 .收敛 速度 和 局 部 极 小 点 。 图 2-13 给 出 了 
损失 作为 网 络 参数 的 函数 的 曲线 。 





损失 值 个 














2-13 局 部 极 小 点 和 全 局 最 小 点 


如 你 所 见 ， 在 某 个 参数 值 附近 ， 有 一 个 局 部 极 小 点 (local minimum ) : 在 这 个 点 附近 ， 向 
左 移动 和 向 右 移动 都 会 导致 损失 值 增 大 。 如 果 使 用 小 学 习 率 的 SGD 进行 优化 ， 那 么 优化 过 程 可 
能 会 陷入 局 部 极 小 点 ， 导 致 无 法 找到 全 局 最 小 点 。 

使 用 动量 方法 可 以 避免 这 样 的 问题 ,这 一 方法 的 灵感 来 源 于 物理 学 。 有 一 种 有 用 的 思维 图 像 ， 
就 是 将 优化 过 程 想 象 成 一 个 小 球 从 损失 函数 曲线 上 滚 下 来 。 如 果 小 球 的 动量 足够 大 ， 那 么 它 不 会 
卡 在 峡谷 里 ， 最 终 会 到 达 全 局 最 小 点 。 动 量 方法 的 实现 过 程 是 每 一 步 都 移动 小 球 ， 不 仅 要 考虑 当 
前 的 斜率 值 ( 当前 的 加 速度 ), 还 要 考虑 当前 的 速度 ( 来 自 于 之 前 的 加 速度 )。 这 在 实践 中 的 是 指 ， 
更 新 参数 w 不 仅 要 考虑 当前 的 梯度 值 ， 还 要 考虑 上 一 次 的 参数 更 新 ， 其 简单 实现 如 下 所 示 。 
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past_velocity = 0. 

momentum = 0.1 不 变 的 动量 因子 

while loss > 0.01: 一 一 优化 循环 
w, loss, gradient = get_current parameters() 
Velocity = past_velocity * momentum - learning rate * gradient 
WwW = W + momentum * velocity - learning rate * gradient 
past_velocity = Velocity 
update_ parameter (w) 








2.4.4” 链 式 求 导 : 反 向 传播 算法 


在 前 面 的 算法 中 ， 我 们 假设 函数 是 可 微 的 ， 因 此 可 以 明确 计算 其 导数 。 在 实践 中 ， 神 经 网 
络 函 数 包 含 许多 连接 在 一 起 的 张 量 运算 ， 每 个 运算 都 有 简单 的 、 已 知 的 导数 。 例 如 ， 下 面 这 个 
网 络 £ 包含 3 个 张 量 运算 a、b 和 c， 还 有 3 个 权重 矩阵 wi1、W2 和 WwW3。 


f£(W1l, W2, W3) = a(W1l, b(W2, c(W3))) 


根据 微 积分 的 知识 , 这 种 函数 链 可 以 利用 下 面 这 个 恒等式 进行 求 导 , 它 称 为 链 式 法 则 ( chain 
rule ): (f(g(x)))' = f'(g(x)) * g'(x)。 将 链 式 法 则 应 用 于 神经 网 络 梯 度 值 的 计算 , 得 
到 的 算法 叫 作 反 向 传播 ( backpropagation， 有 时 也 叫 反 式 微分 ，reverse-mode differentiation )。 反 
向 传播 从 最 终 损失 值 开始 ， 从 最 顶层 反 向 作用 至 最 底层 ， 利 用 链 式 法 则 计算 每 个 参数 对 损失 值 
的 贡献 大 小 。 

现在 以 及 未 来 数 年 ， 人 们 将 使 用 能 够 进行 符号 微分 (symbolic differentiation ) 的 现代 框架 来 
实现 神经 网 络 ， 比 如 TensorFlow。 也 就 是 说 ， 给 定 一 个 运算 链 ， 并 且 已 知 每 个 运算 的 导数 ， 这 
些 框架 就 可 以 利用 链 式 法 则 来 计算 这 个 运算 链 的 梯度 函数 ， 将 网 络 参数 值 映射 为 梯度 值 。 对 于 
这 样 的 函数 ， 反 向 传播 就 简化 为 调用 这 个 梯度 函数 。 由 于 符号 微分 的 出 现 ， 你 无 须 手动 实现 反 
向 传播 算法 。 因 此 ， 我 们 不 会 在 本 节 浪 费 你 的 时 间 和 精力 来 推导 反 向 传播 的 具体 公式 。 你 只 需 
充分 理解 基于 梯度 的 优化 方法 的 工作 原理 。 


2.5 回顾 第 一 个 例子 


你 已 经 读 到 了 本 章 最 后 一 他， 现在 应 该 对 神经 网 络 背后 的 原理 有 了 大 致 的 了 解 。 我 们 回头 
看 一 下 第 一 个 例子 ， 并 根据 前 面 三 节 学 到 的 内 容 来 重新 阅读 这 个 例子 中 的 每 一 段 代 码 。 
下 面 是 输入 数据 。 


(train images, train labels)，(test_images，test_labels) = mnist.load data() 





















































train_images train_ images.reshape((60000, 28 * 28)) 


train_ images.astype('float32') / 255 


train_ images 


test_images 
test_images 


现在 你 明白 了 ， 输 入 图 像 保 存在 float32 格式 的 Numpy 张 量 中 ， 形 状 分 别 为 (60000， 
784) (训练 数据 ) 和 (10000，784) (测试 数据 )。 


test_images.reshape((10000, 28 * 28)) 
test_images.astype('float32') / 255 
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下 面 是 构建 网 络 。 


network = models.Sequential () 
network.add (layers.Dense(512, activation='relu', input_shape=(28 * 28,))) 
network.add (layers.Dense(10, activation='softmax')) 


现在 你 明月 了 , 这 个 网 络 包含 两 个 Dense 层 , 每 层 都 对 输入 数据 进行 一 些 简 单 的 张 量 运算 ， 


这 些 运 算 都 包含 权重 张 量 。 权 重 张 量 是 该 层 的 属性 ,里 面 保存 了 网 络 所 学 到 的 知识 ( knowledge )。 
下 面 是 网 络 的 编译 。 


network.compile(optimizer='rmsprop', 




















loss='categorical crossentropy', 
metrics=['accuracy']) 








现在 你 明白 了 ，categorical_crossentropy 是 损失 函数 ， 是 用 于 学 习 权 重 张 量 的 反馈 
言 号 ， 在 训练 阶段 应 使 它 最 小 化 。 你 还 知道 ， 减 小 损失 是 通过 小 批量 随机 梯度 下 降 来 实现 的 。 
梯度 下 降 的 具体 方法 由 第 一 个 参数 给 定 ， 即 rmsprop 优化 器 。 

最 后 ， 下 面 是 训练 循环 。 


network.fit (train images, train labels, epochs=5, batch size=128) 

现在 你 明白 在 调用 fit 时 发 生 了 什么 : 网 络 开 始 在 训练 数据 上 进行 迭代 ( 每 个 小 批量 包含 
128 个 样本 )， 共 和 迭代 5 次 [在 所 有 训练 数据 上 和 迭代 一 次 叫 作 一 个 轮 次 《epoch )]。 在 每 次 迭代 
过 程 中 ， 网 络 会 计算 批量 损失 相对 于 权重 的 梯度 ， 并 相应 地 更 新 权重 。5 轮 之 后 ， 网 络 进行 了 
2345 次 梯度 更 新 〈 每 轮 469 次 )， 网 络 损失 值 将 变 得 足够 小 ， 使 得 网 络 能 够 以 很 高 的 精度 对 手 
写 数字 进行 分 类 。 

到 目前 为 止 ， 你 已 经 了 解 了 神经 网 络 的 大 部 分 知识 。 


























本 章 小 结 
D 学 习 是 指 找到 一 组 模型 参数 ， 使 得 在 给 定 的 训练 数据 样本 和 对 应 目标 值 上 的 损失 函数 最 
小 化 。 


口 学 习 的 过 程 : 随机 选取 包含 数据 样本 及 其 目标 值 的 批量 ， 并 计算 批量 损失 相对 于 网 络 参 
数 的 梯度 。 随 后 将 网 络 参数 沿 着 梯度 的 反方 向 稍稍 移动 ( 移动 距离 由 学 习 率 指定 )。 

口 整个 学 习 过 程 之 所 以 能 够 实现 ， 是 因为 神经 网 络 是 一 系列 可 微分 的 张 量 运算 ， 因 此 可 以 
利用 求 导 的 链 式 法 则 来 得 到 梯度 函数 ， 这 个 函数 将 当前 参数 和 当前 数据 批量 映射 为 一 个 








梯度 值 。 
口 后 续 几 章 你 会 经 常 遇 到 两 个 关键 的 概念 : 损失 和 优化 器 。 将 数据 输入 网 络 之 前 ， 你 需要 
先 定义 这 二 者 。 























口 损失 是 在 训练 过 程 中 需要 最 小 化 的 量 ， 因 此 ， 它 应 该 能 够 衡量 当前 任务 是 否 已 成 功 解决 。 
D 优化 器 是 使 用 损失 梯度 更 新 参数 的 具体 方式 ， 比 如 RMSProp 优化 器 、 带 动量 的 随机 梯 
度 下 降 (SGD ) 等 。 
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本 章 包括 以 下 内 容 : 

口 神经 网 络 的 核心 组 件 

口 Keras 简介 

口 建立 深度 学 习 工 作 站 

口 使 用 神经 网 络 解 决 基本 的 分 类 问题 与 回归 问题 








本 章 的 目的 是 让 你 开始 用 神经 网 络 来 解决 实际 问题 。 你 将 进一步 巩固 在 第 2 章 第 一 个 示例 
中 学 到 的 知识 ， 还 会 将 学 到 的 知识 应 用 于 三 个 新 问题 ， 这 三 个 问题 涵盖 神经 网 络 最 常见 的 三 种 
使 用 场景 : 二 分 类 问题 、 多 分 类 问题 和 标量 回归 问题 。 

本 章 将 进一步 介绍 神经 网 络 的 核心 组 件 ， 即 层 、 网 络 、 目 标 函 数 和 优化 器 ; 还 会 简要 介绍 
Keras， 它 是 贯穿 本 书 的 Python 深度 学 习 库 。 你 还 将 建立 深度 学 习 工 作 站 ， 安 装 好 TensorFlow 
和 Keras ,并 支持 GPU。 最 后 ,我们 将 用 三 个 介绍 性 示例 深入 讲解 如 何 使 用 神经 网 络 解决 实际 问题 ， 
这 三 个 示例 分 别 是 : 

口 将 电影 评论 划分 为 正面 或 负面 (二 分 类 问题 ) 
口 将 新 闻 按 主题 分 类 ( 多 分 类 问题 ) 
口 根据 房地产 数据 估算 房屋 价格 ( 回归 问题 ) 

学 完 本 章 ， 你 将 能 够 使 用 神经 网 络 解决 简单 的 机 器 问题 ， 比 如 对 向 量 数据 的 分 类 问题 和 回 
归 问 题 。 然 后 ， 你 就 可 以 从 第 4 章 开 始 建立 对 机 需 学 习 更 加 具有 原则 性 、 理 论 性 的 理解 。 


3.1 神经 网 络 剖 析 


前 面 几 章 介 绍 过 ， 训 练 神经 网 络 主要 围绕 以 下 四 个 方面 。 
口 层 ， 多 个 层 组 合成 网 络 〈 或 模型 )。 

口 输入 数据 和 相应 的 目标 。 

口 损失 函数 ， 即 用 于 学 习 的 反馈 信和 号。 

口 优化 器 ， 决 定 学 习 过 程 如 何 进行 。 
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你 可 以 将 这 四 者 的 关系 可 视 化 ， 如 图 3-1 所 示 : 多 个 层 链接 在 一 起 组 成 了 网 络 ， 将 输入 数 
据 映射 为 预测 值 。 然 后 损失 函数 将 这 些 预 测 值 与 目标 进行 比较 ， 得 到 损失 值 ， 用 于 衡量 网 络 预 
测 值 与 预期 结果 的 匹配 程度 。 优 化 器 使 用 这 个 损失 值 来 更 新 网 络 的 权重 。 











输入 X 








里 
层 
权重 (数据 变换 ) 














VY 
层 
权重 (数据 变换 ) 


了 
Y 了 


图 3-1 网 络 、 层 、 损 失 函 数 和 优化 器 之 间 的 关系 
我 们 来 进一步 研究 层 、 网 络 、 损 失 函 数 和 优化 需 。 


3.1.1 层 : 深度 学 习 的 基础 组 件 


我 们 在 第 2 章 中 介绍 过 ， 神 经 网 络 的 基本 数据 结构 是 层 。 层 是 一 个 数据 处 理 模块 ， 将 一 个 
或 多 个 输入 张 量 转换 为 一 个 或 多 个 输出 张 量 。 有 些 层 是 无 状态 的 ， 但 大 多 数 的 层 是 有 状态 的 ， 
即 层 的 权重 。 权 重 是 利用 随机 梯度 下 降 学 到 的 一 个 或 多 个 张 量 ， 其 中 包含 网 络 的 知识 。 

不 同 的 张 量 格式 与 不 同 的 数据 处 理 类 型 需要 用 到 不 同 的 层 。 例 如 ， 简 单 的 向 量 数 据 保 存在 
形状 为 (samples，features) 的 2D 张 量 中 ,通常 用 密集 连接 层 [ densely connected layer， 也 
叫 全 连接 层 (fully connected layer ) 或 密集 层 ( dense layer )， 对 应 于 Keras 的 Dense 类 ] 来 处 
理 。 序 列 数 据 保 存在 形状 为 (samples，timesteps，features) 的 3D 张 量 中 ,通常 用 循环 
层 (recurrent layer， 比 如 Keras 的 LSTM 层 ) 来 处 理 。 图 像 数 据 保 存在 4D 张 量 中 ， 通 常用 二 维 
卷 积 层 ( Keras 的 conv2D ) 来 处 理 。 

你 可 以 将 层 看 作 深 度 学 习 的 乐高 积木 ，Keras 等 框架 则 将 这 种 比喻 具体 化 。 在 Keras 中 ， 构 
建 深度 学 习 模型 就 是 将 相互 兼容 的 多 个 层 拼接 在 一 起 ， 以 建立 有 用 的 数据 变换 流程 。 这 里 层 兼 
容 性 ( layer compatibility ) 具体 指 的 是 每 一 层 只 接受 特定 形状 的 输入 张 量 ， 并 返回 特定 形状 的 输 
出 张 量 。 看 看 下 面 这 个 例子 。 


from keras import layers 


个 当 元 拘束 侍 导 
layer = layers.Dense(32, input_shape=(784,)) | 有 32 个 输出 单元 的 密集 层 































优化 器 
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我 们 创建 了 一 个 层 ， 只 接受 第 一 个 维度 大 小 为 784 的 2D 张 量 (第 0 轴 是 批量 维度 ， 其 大 
小 没有 指定 ， 因 此 可 以 任意 取 值 ) 作为 输入 。 这 个 层 将 返回 一 个 张 量 ， 第 一 个 维度 的 大 小 变 成 
T3208 

因此 ， 这 个 层 后 面 只 能 连接 一 个 接受 32 维 向 量 作为 输入 的 层 。 使 用 Keras 时 ， 你 无 须 担心 
兼容 性 ， 因 为 向 模型 中 添加 的 层 都 会 自动 匹配 和 输入 层 的 形状 ， 例 如 下 面 这 段 代码 。 


from keras import models 
from keras import layers 




















model = models.Sequential () 
model.add (layers.Dense(32, input_shape=(784,))) 
model.add (layers .Dense (32)) 


其 中 第 二 层 没有 输入 形状 ( input_shape ) 的 参数 ， 相 反 ， 它 可 以 自动 推导 出 输入 形状 等 
于 上 一 层 的 输出 形状 。 


3.1.2 ”模型 ， 层 构成 的 网 络 


深度 学 习 模 型 是 层 构 成 的 有 向 无 环 图 。 最 篆 见 的 例子 就 是 层 的 线性 堆 琶 ， 将 单一 输入 映射 
为 单一 输出 。 
日 随 着 深入 学 习 ， 你 会 接触 到 更 多 类 型 的 网 络 拓扑 结构 。 一 些 常见 的 网 络 拓扑 结构 如 下 。 
口 双 分 支 (two-branch ) 网 络 
口 多 头 (mnultihead ) 网 络 
口 Inception 模块 

网 络 的 拓扑 结构 定义 了 一 个 假设 空间 (hypothesis space )。 你 可 能 还 记得 第 1 音 里 机 器 学 习 
的 定义 :“ 在 预先 定义 好 的 可 能 性 空间 中 ， 利 用 反馈 信号 的 指引 来 寻找 输入 数据 的 有 用 表示 。” 
选 定 了 网 络 拓 扑 结 构 ， 意 味 着 将 可 能 性 空间 (假设 空间 ) 限定 为 一 系列 特定 的 张 量 运 算 , 将 输 
入 数据 映射 为 输出 数据 。 然 后 ， 你 需要 为 这 些 张 量 运算 的 权重 张 量 找到 一 组 合适 的 值 。 

选择 正确 的 网 络 架 构 更 像 是 一 门 艺术 而 不 是 科学 。 虽 然 有 一 些 最 佳 实践 和 原则 ， 但 只 有 动 
手 实践 才能 让 你 成 为 合格 的 神经 网 络 架 构 师 。 后 面 几 章 将 教 你 构建 神经 网 络 的 详细 原则 ， 也 会 
帮 你 建立 直觉 ， 明 白 对 于 特定 问题 哪些 架构 有 有 用、 哪些 架构 无 用 。 


3.1.3 ”损失 函数 与 优化 器 : 配置 学 习 过 程 的 关键 


一 旦 确定 了 网 络 架 构 ， 你 还 需要 选择 以 下 两 个 参数 。 









































口 损失 函数 (目标 函数 ) 一 一 在 训练 过 程 中 需要 将 其 最 小 化 。 它 能 够 衡量 当前 任务 是 否 已 
口 优化 器 一 一 决定 如 何 基 于 损失 函数 对 网 络 进行 更 新 。 它 执行 的 是 随机 梯度 下 降 ( SGD ) 





的 某 个 变 体 。 
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具有 多 个 输出 的 神经 网 络 可 能 具有 多 个 损失 也 数 ( 每 个 输出 对 应 一 个 损失 也 数 )。 但 是 ， 梯 
度 下 降 过 程 必须 基于 单个 标量 损失 值 。 因 此 ， 对 于 具有 多 个 损失 函数 的 网 络 ， 需 要 将 所 有 损失 
函数 取 平 均 ， 变 为 一 个 标量 值 。 

选择 正确 的 目标 函数 对 解决 问题 是 非常 重要 的 。 网 络 的 目的 是 使 损失 尽 可 能 最 小 化 ， 因 此 ， 
如 果 目 标 函 数 与 成 功 完成 当前 任务 不 完全 相关 ， 那 么 网 络 最 终 得 到 的 结果 可 能 会 不 符合 你 的 预 
期 。 想 象 一 下 ,利用 SGD 训练 一 个 思 夸 而 义 无 所 不 能 的 人 工 智能 ,给 它 一 个 鉴 脚 的 目标 孔 数 :“ 将 
所 有 活着 的 人 的 平均 幸福 感 最 大 化 "。 为 了 简化 自己 的 工作 ， 这 个 人 工 智能 可 能 会 选择 杀 死 绝 大 
多 数 人 类 ， 只 留 几 个 人 并 专注 于 这 几 个 人 的 幸福 一 一 因为 平均 幸福 感 并 不 受 人 数 的 影响 。 这 可 
能 并 不 是 你 想 要 的 结果 ! 请 记 住 ， 你 构建 的 所 有 神经 网 络 在 降低 损失 函数 时 和 上 述 的 人 工 智能 
一 样 无 情 。 因 此 ， 一 定 要 明智 地 选择 目标 函数 ， 否 则 你 将 会 遇 到 意 想不到 的 副作用 。 

幸运 的 是 ， 对 于 分 类 、 回 归 、 序 列 预测 等 常见 问题 ， 你 可 以 遵循 一 些 简单 的 指导 原则 来 选 
择 正 确 的 损失 函数 。 例 如 ， 对 于 二 分 类 问题 ， 你 可 以 使 用 二 元 交叉 (binary crossentropy ) 损 
失 困 数 ; 对 于 多 分 类 问题 ， 可 以 用 分 类 交叉 箭 (categorical crossentropy ) 损失 函数 ; 对 于 回归 
问题 ， 可 以 用 均 方 误差 (mean-squared error ) 损失 函数 ; 对 于 序列 学 习 问 题 ， 可 以 用 联结 主义 
时 序 分 类 ( CTC ，connectionist temporal classification ) 损失 国 数 ， 等 等 。 只 有 在 面 对 真 正 全 新 的 
研究 问题 时 ， 你 才 需 要 自主 开发 目标 男 数 。 在 后 面 几 章 里 ， 我 们 将 详细 说 明 对 于 各 种 浓 见 任务 
应 选择 哪 种 损失 函数 。 


3.2 Keras 简介 


本 书 的 代码 示例 全 都 使 用 Keras 实现 。Keras 是 一 个 Python 深度 学 习 框 架 ， 可 以 方便 地 定 
义 和 训 练 几乎 所 有 类 型 的 深度 学 习 模 型 。Keras 最 开始 是 为 研究 人 员 开 发 的 ， 其 目的 在 于 快速 
实验 。 

Keras 具有 以 下 重要 特性 。 
口 相同 的 代码 可 以 在 CPU 或 GPU 上 无 颖 切换 运行 。 
口 具有 用 户 友好 的 API， 便 于 快速 开发 深度 学 习 模 型 的 原型 。 
口 内 置 文 持 卷 积 网 络 ( 用 于 计算 机 视觉 )、 循 环 网 络 〈 用 于 序列 处 理 ) 以 及 二 者 的 任意 
组 合 。 
口 支持 任意 网 络 架 构 : 多 输入 或 多 输出 模型 、 层 共享 、 模 型 共享 等 。 这 也 就 是 说 ，Keras 

能 够 构建 任意 次 度 学 习 模 型 ， 无 论 是 生成 式 对 抗 网 络 还 是 神经 图 灵 机 。 

Keras 基于 宽松 的 MIT 许可 证 发 布 ， 这 意味 着 可 以 在 商业 项 目 中 免费 使 用 它 。 它 与 所 有 版 
本 的 Python 都 兼容 ( 截至 2017 年 年 中 ， 从 Python 2.7 到 Python 3.6 都 兼容 )。 

Keras 已 有 200 000 多 个 用 户 ， 既 包括 创业 公司 和 大 公司 的 学 术 人 研究 人 员 和 工程 师 ， 也 包括 
人 研究 生 和 业余 爱好 者 。Google 、Netflix、Uber、CERN 、Yelp 、Square 以 及 上 百 家 创 业 公 司 都 在 
用 Keras 解决 各 种 各 样 的 问题 。Keras 还 是 机 器 学 习 竞 赛 网 站 Kaggle 上 的 热门 框架 ， 最 新 的 深 
度 学 习 竞 赛 中 ， 几 乎 所 有 的 优胜 者 用 的 都 是 Keras 模型 ， 如 图 3-2 所 示 。 
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图 3-2 不 同 深度 学 习 框 架 的 Google 网 页 搜索 热度 的 变化 趋势 





3.2.1 Keras、TensorFlow、Theano 和 CNTK 


Keras 是 一 个 模型 级 (model-level ) 的 库 ， 为 开发 深度 学 习 模 型 提供 了 高 层次 的 构建 模块 。 
它 不 处 理 张 量 操作 、 求 微分 等 低层 次 的 运算 。 相 反 ， 它 依赖 于 一 个 专门 的 、 高 度 优化 的 张 量 库 
来 完成 这 些 运算 ， 这 个 张 量 库 就 是 Keras 的 后 端 引擎 (backend engine )。Keras 没有 选择 单个 张 
量 库 并 将 Keras 实现 与 这 个 库 绑 定 ， 而 是 以 模块 化 的 方式 处 理 这 个 问题 ( 见 图 3-3 )。 因 此 ， 几 
个 不 同 的 后 端 引擎 都 可 以 无 颖 认 人 到 Keras 中 。 目 前 ，Keras 有 三 个 后 端 实现 : TensorFlow 后 端 、 
Theano 后 端 和 微软 认 知 工具 包 (CNTK，Microsoft cognitive toolkit ) 后 端 。 未 来 Keras 可 能 会 扩 
展 到 文 持 更 多 的 次 度 学 习 引 警 。 


CUDA/cuDNN | | BLAS,Eigen | 





















































GPU | | CPU | 





图 3-3 ”深度 学 习 的 软件 栈 和 硬件 栈 


TensorFlow、CNTK 和 Theano 是 当今 深度 学 习 的 几 个 主要 平台 。Theano 由 蒙特 利 尔 大 学 的 
MILA 实验 室 开 发 ，TensorFlow 由 Google 开发 ，CNTK 由 微软 开发 。 你 用 Keras 写 的 每 一 段 代 
码 都 可 以 在 这 三 个 后 端 上 运行 ， 无 须 任何 修改 。 也 就 是 说 ， 你 在 开发 过 程 中 可 以 在 两 个 后 端 之 
间 无 缝 切换 ， 这 通常 是 很 有 用 的 。 例 如 ， 对 于 特定 任务 ， 某 个 后 端的 速度 更 快 ， 那 么 我 们 就 可 
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以 无 颖 切换 过 去 。 我 们 推荐 使 用 TensorFlow 后 端 作为 大 部 分 深度 学 习 任 务 的 默认 后 端 ， 因 为 它 
的 应 用 最 广泛 ， 可 扩展 ， 而 且 可 用 于 生产 环境 。 

通过 TensorFlow (或 Theano 、CNTK )，Keras 可 以 在 CPU 和 GPU 上 无 颖 运行 。 在 CPU 上 运行 
时 ，TensorFlow 本 身 封 装 了 一 个 低层 次 的 张 量 运 算 库 ， 叫 作 Eigen; 在 GPU 上 运行 时 ，TensorFlow 
封装 了 一 个 高 度 优化 的 深度 学 习 运 算 库 ， 叫 作 NVIDIA CUDA 深度 神经 网 络 库 (cuDNN )。 


3.2.2 ”使 用 Keras 开发 : 概述 


你 已 经 见 过 一 个 Keras 模型 的 示例 ， 就 是 MNIST 的 例子 。 典 型 的 Keras 工作 流程 就 和 那个 
例子 类 似 。 

(1) 定义 训练 数据 : 输入 张 量 和 目标 张 量 。 

(2) 定义 层 组 成 的 网 络 (或 模型 )， 将 输入 映射 到 目标 。 

(3) 配置 学 习 过 程 : 选择 损失 函数 、 优 化 器 和 需要 监控 的 指标 。 

(4) 调用 模型 的 fit 方法 在 训练 数据 上 进行 迭代 。 

定义 模型 有 两 种 方法 : 一 种 是 使 用 sequential 类 ( 仅 用 于 层 的 线性 堆 琶 ,这 是 目前 最 党 
见 的 网 络 架 构 )， 另 一 种 是 函数 式 API ( functional API， 用 于 层 组 成 的 有 向 无 环 图 ， 让 你 可 以 构 
建 任意 形式 的 架构 )。 

前 面 讲 过 ， 这 是 一 个 利用 sequential 类 定义 的 两 层 模型 ( 注意 ， 我 们 向 第 一 层 传人 了 给 
入 数据 的 预期 形状 )。 


from keras import models 
from keras import layers 
























































model = models.Sequential () 
model.add (layers.Dense(32, activation='relu', input_shape=(784,))) 
model.add (layers.Dense(10, activation='softmax')) 


下 面 是 用 函数 式 API 定义 的 相同 模型 。 


input_tensor = layers.Input (shape=(784,)) 
x = layers.Dense(32, activation='relu') (input_tensor) 
output_tensor = layers.Dense(10, activation='softmax') (x) 





model = models.Model (inputs=input_tensor, outputs=output_tensor) 


利用 函数 式 API， 你 可 以 操纵 模型 处 理 的 数据 张 量 ， 并 将 层 应 用 于 这 个 张 量 ， 就 好 像 这 些 
层 是 函数 一 样 。 


注意 第 7 章 有 关于 函数 式 API 的 详细 指南 。 在 那 之 前 ,我 们 的 代码 示例 中 只 会 用 到 Sequential 类 。 

















一 且 定 义 好 了 模型 架构 ， 使 用 Sequential 模型 还 是 函数 式 API 就 不 重要 了 。 接 下 来 的 步 
又 都 是 相同 的 。 

配置 学 习 过 程 是 在 编译 这 一 步 ， 你 需要 指定 模型 使 用 的 优化 器 和 损失 函数 ， 以 及 训练 过 程 
中 想 要 监控 的 指标 。 下 面 是 单一 损失 郴 数 的 例子 ， 这 也 是 目前 最 常见 的 。 
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from keras import optimizers 


model .compile(optimizer=optimizers.RMSprop (lr=0.001), 
loss='mse', 
metrics=['accuracy']) 


最 后 ， 学 习 过 程 就 是 通过 fit () 方法 将 输入 数据 的 Numpy 数组 ( 和 对 应 的 目标 数据 ) 传 
和 人 模型， 这 一 做 法 与 Scikit-Learn 及 其 他 机 器 学 习 库 类 似 。 


model.fit(input tensor, target_ tensor, batch size=128, epochs=10) 


在 接 下 来 的 几 间 里， 你 将 会 在 这 些 问 题 上 培养 可 靠 的 直觉 ， 哪 种 类 型 的 网 络 架 构 适 合 解决 
哪 种 类 型 的 问题 ?如 何 选择 正确 的 学 习 配置 ? 如 何 调节 模型 使 其 给 出 你 想 要 的 结果 ?我 们 将 在 
3.4~3.6 节 讲 解 三 个 基本 示例 ， 分 别 是 二 分 类 问题 、 多 分 类 问题 和 回归 问题 。 

3.3 ”建立 深度 学 习 工作 站 

在 开始 开发 深度 学 习 应 用 之 前 ， 你 需要 建立 自己 的 深度 学 习 工 作 站 。 虽 然 并 非 绝对 必要 ， 
但 强烈 推荐 你 在 现代 NVIDIA GPU 上 运行 深度 学 习 实 验 。 某 些 应 用 ， 特 别 是 卷 积 神经 网 络 的 图 
像 处理 和 循环 神经 网 络 的 序列 处 理 , 在 CPU 上 的 速度 非常 之 慢 , 即使 是 高 速 多 核 CPU 也 是 如 此 。 
即使 是 可 以 在 CPU 上 运行 的 深度 学 习 应 用 , 使 用 现代 GPU 通常 也 可 以 将 速度 提高 5 倍 或 10 倍 。 
如 果 你 不 想 在 计算 机 上 安装 GPU， 也 可 以 考虑 在 AWS EC2 GPU 实例 或 Google 云 平台 上 运行 深 
度 学 习 实验 。 但 请 注意 ， 时 间 一 长 ， 云 端 GPU 实例 可 能 会 变 得 非常 昂贵 。 

无 论 在 本 地 还 是 在 云端 运行 ,最 好 都 使 用 UNIX 工作 站 。 虽 然 从 技术 上 来 说 可 以 在 Windows 
上 使 用 Keras (Keras 的 三 个 后 端 都 支持 Windows ), 但 我 们 不 建议 这 么 做 。 在 附录 A 的 安装 说 明 中 ， 
我 们 以 安装 了 Ubuntu 的 计算 机 为 例 。 如 果 你 是 Windows 用 户 ， 最 简单 的 解决 方案 就 是 安装 Ubuntu 
双 系 统 。 这 看 起 来 可 能 有 点 麻烦 ， 但 从 长 远 来 看 ， 使 用 Ubuntu 将 会 为 你 省 去 大 量 时 间 和 麻烦 。 

注意 ， 使 用 Keras 需要 安装 TensorFlow、CNTK 或 Theano ( 如 果 你 希望 能 够 在 三 个 后 端 之 间 
来 回 切换 ， 那 么 可 以 安装 三 个 )。 本 书 将 重点 介绍 TensorFlow， 并 简要 介绍 一 下 Theano， 不 会 涉 
及 CNTK。 

































































3.3.1 Jupyter 笔记 本 : 运行 深度 学 习 实 验 的 首选 方法 


Jupyter 笔记 本 是 运行 深度 学 习 实 验 的 好 方法 ， 特 别 适 合 运行 本 书 中 的 许多 代码 示例 。 它 广 
泛 用 于 数据 科学 和 机 顺 学 习 领 域 。 笔 记 本 (notebook ) 是 Jupyter Notebook 应 用 生成 的 文件 ， 可 
以 在 浏览 硕 中 编辑 。 它 可 以 执行 Python 代码 ,还 具有 丰富 的 文本 编辑 功能 ,可 以 对 代码 进行 注释 。 
笔记 本 还 可 以 将 元 长 的 实验 代码 拆 分 为 可 独立 执行 的 短 代 码 ， 这 使 得 开发 具有 交互 性 ， 而 且 如 
果 后 面 的 代码 出 现 问题 ， 你 也 不 必 重 新 运行 前 面 的 所 有 代码 。 

我 们 推荐 使 用 Jupyter 笔记 本 来 上 手 Keras， 虽 然 这 并 不 是 必需 的 。 你 也 可 以 运行 独立 的 
Python 脚本 ， 或 者 在 IDE〈 比如 PyCharm ) 中 运行 代码 。 本 书 所 有 代码 示例 都 以 开源 笔记 本 的 
形式 提供 ， 你 可 以 在 本 书 网 站 上 下 载 : https:/www.manning.com/books/deep-learning-with-python。 
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3.3.2 ”运行 Keras: 两 种 选择 


想 要 在 实践 中 使 用 Keras， 我 们 推荐 以 下 两 种 方式 。 

口 使 用 官方 的 EC2 深度 学 习 Amazon 系统 映像 ( AMI )， 并 在 EC2 上 以 Jupyter 笔记 本 的 方 
式 运行 Keras 实验 。 如 果 你 的 本 地 计算 机 上 没有 GPU， 你 可 以 选择 这 种 方式 。 附 录 B 给 
出 了 详细 指南 。 

口 在 本 地 UNIX 工作 站 上 从 头 安装 。 然 后 你 可 以 运行 本 地 Jupyter 笔记 本 或 常规 的 Python 
代码 库 。 如 果 你 已 经 拥有 了 高 端的 NVIDIA GPU， 可 以 选择 这 各 方式。 附录 A 给 出 了 基 
于 Ubuntu 的 详细 安装 指南 。 

我 们 来 详细 看 一 下 这 两 种 方式 的 优 缺 点 。 


3.3.3 ”在 云端 运行 深度 学 习 任务 : 优点 和 缺点 


如 果 你 还 没有 可 用 于 深度 学 习 的 GPU ( 即 最 新 的 高 端 NVIDIA GPU )， 那 么 在 云端 运行 
深度 学 习 实 验 是 一 种 简单 又 低 成 本 的 方法 ， 让 你 无 须 额外 购买 硬件 就 可 以 上 手 。 如 果 你 使 用 
Jupyter 笔记 本 ， 那 么 在 云端 运行 的 体验 与 在 本 地 运行 完全 相同 。 截 至 2017 年 年 中 ， 最 容易 上 手 
深度 学 习 的 云 产 品 肯定 是 AWS EC2。 附 录 B 给 出 了 在 EC2 GPU 实例 上 运行 Jupyter 笔记 本 的 详 
细 指 南 。 

但 如 果 你 是 深度 学 习 的 重度 用 户 ， 从 长 期 来 看 这 种 方案 是 难以 持续 的 ， 甚 至 几 个 星期 都 不 
行 。EC2 实例 的 价格 很 高 ， 附 录 B 推荐 的 实例 (p2 .xlarge 实例 ， 计 算 能 力 一 般 ) 在 2017 年 
年 中 的 价格 是 每 小 时 0.90 美元 。 与 此 相对 的 是 ， 一 款 可 靠 的 消费 级 GPU 价格 在 1000~1500 美 
元 一 一 这 个 价格 一 直 相 当 稳 定 ， 而 这 种 GPU 的 性 能 则 在 不 断 提高 。 如 果 你 准备 认真 从 事 深度 学 
习 ， 那 么 应 该 建立 具有 一 块 或 多 块 GPU 的 本 地 工作 站 。 

简 而 言 之 ，EC2 是 很 好 的 上 手 方法 。 你 完全 可 以 在 EC2 GPU 实例 上 运行 本 书 的 代码 示例 。 
但 如 果 你 想 成 为 深度 学 习 的 高 手 ， 那 就 自己 买 GPU。 
























































3.3.4 深度 学 习 的 最 佳 GPU 


如 果 你 准备 买 一 块 GPU， 应 该 选择 哪 一 款 呢 ?7 首先 要 注意 ， 一 定 要 买 NVIDIA GPU。 
NVIDIA 是 目前 唯一 一 家 在 深度 学 习 方 面 大 规模 投资 的 图 形 计算 公司 ， 现 代 深 度 学 习 框 架 只 能 
在 NVIDIA 显卡 上 运行 。 

截至 2017 年 年 中 ,我们 推荐 NVIDIA TITAN Xp 为 市 场 上 用 于 深度 学 习 的 最 佳 显 卡 。 如 果 
预算 较 少 ， 你 也 可 以 考虑 GTX 1060。 如 果 你 读 到 本 节 的 时 间 是 在 2018 年 或 更 晚 ， 请 花 点 时 间 
在 网 上 查找 最 新 的 推荐 ， 因 为 每 年 都 会 推出 新 的 模型 。 

从 这 一 节 开 始 ， 我 们 将 认为 你 的 计算 机 已 经 安装 好 Keras 及 其 依赖 ,最 好 支持 GPU。 在 继 
续 阅 读 之 前 请 确认 已 经 完成 此 步 又。 阅读 附录 中 的 详细 指南 ， 还 可 以 在 网 上 搜索 进一步 的 帮助 。 
安装 Keras 及 常见 的 深度 学 习 依赖 的 教程 有 和 很多。 

下 面 我 们 将 深入 讲解 Keras 示例 。 
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3.4 电影 评论 分 类 : 二 分 类 问题 


二 分 类 问题 可 能 是 应 用 最 广泛 的 机 器 学 习 问 题 。 在 这 个 例子 中 ， 你 将 学 习 根 据 电 影评 论 的 
文字 内 容 将 其 划分 为 正面 或 负面 。 


3.4.1 IMDB 数据 集 


本 节 使 用 IMDB 数据 集 ， 它 包含 来 自 互 联网 电影 数据 库 (IMDB ) 的 50 000 条 严重 两 极 分 
化 的 评论 。 数 据 集 被 分 为 用 于 训练 的 25 000 条 评论 与 用 于 测试 的 25 000 条 评论 ， 训 练 集 和 测试 
集 都 包含 50% 的 正面 评论 和 50% 的 负面 评论 。 

为 什么 要 将 训练 集 和 测试 集 分 开 ? 因为 你 不 应 该 将 训练 机 需 学 习 模 型 的 同一 批 数 据 再 用 于 
测试 模型 ! 模型 在 训练 数据 上 的 表现 很 好 ， 并 不 意味 着 它 在 前 所 未 见 的 数据 上 也 会 表现 得 很 好 ， 
而 且 你 真正 关心 的 是 模型 在 新 数据 上 的 性 能 ( 因为 你 已 经 知道 了 训练 数据 对 应 的 标签 ， 显 然 不 
再 需要 模型 来 进行 预测 )。 例 如 ， 你 的 模型 最 终 可 能 只 是 记 住 了 训练 样本 和 目标 值 之 间 的 映射 关 
系 ， 但 这 对 在 前 所 未 见 的 数据 上 进行 预测 毫 无 用 处 。 下 一 章 将 会 更 详细 地 讨论 这 一 点 。 

与 MNIST 数据 集 一 样 ,IMDB 数据 集 也 内 置 于 Keras 库 。 它 已 经 过 预 处 理 :评论 ( 单词 序列 ) 
已 经 被 转换 为 整数 序列 ， 其 中 每 个 整数 代表 字典 中 的 某 个 单词 。 

下 列 代码 将 会 加 载 IMDB 数据 集 ( 第 一 次 运行 时 会 下 载 大 约 80MB 的 数据 )。 


代码 清单 3-1 加载 IMDB 数据 集 


from keras.datasets import imdb 





(train data, train labels), (test_data, test_labels) = imdb.load datal 
num words=10000) 


参数 num_words=10000 的 意思 是 仅 保留 训练 数据 中 前 10 000 个 最 党 出 现 的 单词 。 低 频 单 
词 将 被 舍弃 。 这 样 得 到 的 向 量 数据 不 会 太 大 ， 便 于 处 理 。 

train_data 和 test_data 这 两 个 变量 都 是 评论 组 成 的 列表 ， 每 条 评论 又 是 单词 索引 组 成 
的 列表 (表示 一 系列 单词 )。train_labels 和 test_labels 都 是 0 和 1 组 成 的 列表 ， 其 中 0 
代表 负面 (negative )，! 代表 正面 (positive )。 


>>> train datal[l0] 
[Li Ld; 22 L667 was df. 32] 


>>> train labels[0] 
1 


由 于 限定 为 前 10 000 个 最 常见 的 单词 ， 单 词 索 引 都 不 会 超过 10 000。 


>>> max( [max(sequence) for sequence in train_dqata] ) 
9999 


下 面 这 段 代码 很 有 意思 ， 你 可 以 将 某 条 评论 迅速 解码 为 英文 单词 。 
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word_index = imdb.get_word_index() < word_index 是 一 个 将 单词 映射 为 整数 索引 的 字典 
reverse word_ index = qict( 
[(value, key) for (key, value) in word index.items()]) 





decodeqd review = ' ' .join( 
[reverse word index.get (i - 3, '?') for i in train data[0]]) 
键 值 颠倒 ， 将 整数 将 评论 解码 。 注 意 ， 索 引 减 去 了 3， 因为 0、1、2 
索引 映射 为 单词 是 为 “padding”( 填 充 )、“start of sequence”( 序 


列 开始 )、“unknown” (未 知 词 ) 分 别 保留 的 索引 
3.4.2 ”准备 数据 


你 不 能 将 整数 序列 直接 输入 神经 网 络 。 你 需要 将 列表 转换 为 张 量 。 转 换 方法 有 以 下 两 种 。 

口 填充 列表 ， 使 其 具有 相同 的 长 度 ， 再 将 列表 转换 成 形状 为 (samples，word_indices) 
ee bE 处理 这 种 整数 张 量 的 层 ( 即 Brpedqing 层 ， 本 书 

会 详细 介绍 )。 

es one-hot 编码 ， 将 其 转换 为 0 和 1 组 成 的 向 量 。 举 个 例子 ,序列 [3，5] 将 会 
被 转换 为 10 000 维 向 量 ， 只 有 索引 为 3 和 5 的 元 素 是 1， 其 余 元 素 都 是 0。 
一 层 可 以 用 Dense 层 ， 它 能 够 处 理 序 点 数 向 量 数据 。 

下 面 我 们 采用 后 一 种 方法 将 数据 向 量化 。 为 了 加 深 理解 ， 你 可 以 手动 实现 这 一 方法 ， 如 下 

所 示 。 











代码 清单 3-2 将 整数 序列 编码 为 二 进 制 矩 阵 


import numpy as np 


def vectorize_sequences (sequences, dimension=10000): 
results = np.zeros( (len(sequences), dimension)) 
for i, sequence in enumerate(sequences): 
results[i，sequence] = 1. < 一 将 results[i] 的 指定 索引 设 为 1 
return results 


创建 一 个 形状 为 (len (sequences)， 
dimension) 的 和 零 矩 阵 





X_train = vectorize_ sequences (train_ data) 一 将 训练 数据 向 量化 
x_test = vectorize_sequences (test_data) 一 将 测试 数据 向 量化 
样本 现在 变 成 了 这 样 : 

SS 区 七 基于 让 [0 

EE 0 0 Cer J) 


和 Ee i 
你 还 应 该 将 标签 向 量化 ， 这 很 简单 。 

y_train = np.asarray(train_ labels) .astype('float32') 
y_test = np.asarray (test_labels) .astype('float32') 


现在 可 以 将 数据 输入 到 神经 网 络 中 。 


3.4.3 ”构建 网 络 
输入 数据 是 向 量 ， 而 标签 是 标量 (1 和 0 )， 这 是 你 会 遇 到 的 最 简单 的 情况 。 有 一 类 网 
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络 在 这 种 问题 上 表现 很 好 ， 就 是 带 有 relu 激活 的 全 连接 层 (Dense ) 的 简单 堆 琶 ， 比 如 
Dense(16，activation='relu')。 

传人 Dense 层 的 参数 ( 16 ) 是 该 层 隐藏 单元 的 个 数 。 一 个 隐藏 单元 (hidden unit ) 是 该 层 
表示 空间 的 一 个 维度 。 我 们 在 第 2 章 讲 过 ， 每 个 带 有 relu 激活 的 Dense 层 都 实现 了 下 列 张 量 
运算 : 

output = relu(dot (W, input) + b) 

16 个 隐藏 单元 对 应 的 权重 矩阵 w 的 形状 为 (input_dqimension，16)， 与 W 做 点 积 相当 于 
将 输入 数据 投影 到 16 维 表示 空间 中 ( 然后 再 加 上 偏 置 向 量 b 并 应 用 relu 运算 )。 你 可 以 将 表 
示 空 间 的 维度 直观 地 理解 为 “网 络 学 习 内 部 表示 时 所 拥有 的 自由 度 ”。 隐 藏 单元 越 多 ( 即 更 高 维 
的 表示 空间 )， 网 络 越 能 够 学 到 更 加 复杂 的 表示 ， 但 网 络 的 计算 代价 也 变 得 更 大 ， 而 且 可 能 会 导 
致 学 到 不 好 的 模式 〈 这 种 模式 会 提高 训练 数据 上 的 性 能 ， 但 不 会 提高 测试 数据 上 的 性 能 )。 

对 于 这 种 Dense 层 的 堆 琶 ， 你 需要 确定 以 下 两 个 关键 架构 : 
口 网 络 有 多 少 层 ; 
口 每 层 有 多 少 个 隐藏 单元 。 
第 4 章 中 的 原则 将 会 指导 你 对 上 述 问 题 做 出 选择 。 现 在 你 只 需要 相信 我 选择 的 下 列 架 构 : 
口 两 个 中 间 层 ， 每 层 都 有 16 个 隐藏 单元 ; 
口 第 三 层 输出 一 个 标量 ， 预 测 当 前 评论 的 情感 。 

中 间 层 使 用 relu 作为 激活 函数 ， 最 后 一 层 使 用 sigmoid 激活 以 输出 一 个 0~1 范围 内 的 概率 
值 (表示 样本 的 目标 值 等 于 1 的 可 能 性 ， 即 评论 为 正面 的 可 能 性 )。relu (rectified linear unit， 
整流 线性 单元 ) 函数 将 所 有 负 值 归 零 ( 见 图 3-4 )， 而 sigmoid 函数 则 将 任意 值 “ 压 缩 ” 到 [0， 
1] 区 间 内 ( 见 图 3-5 )， 其 输出 值 可 以 看 作 概率 值 。 
























































图 3-4 整流 线性 单元 函数 
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图 3-5 sigmoid 函数 
图 3-6 显示 了 网 络 的 结构 。 代 码 清单 3-3 是 其 Keras 实现 ， 与 前 面 见 过 的 MNIST 例子 类 似 。 


输出 
(概率 值 ) 











Dense (units=1) 





Dense (units=16) 


Sequential 


输入 
(向 量化 文本 ) 


图 3-6 三 层 网 络 














代码 清单 3-3 ”模型 定义 
from keras import models 
from keras import layers 


model = models.Sequential () 

model.add (layers.Dense(16, activation='relu', input_shape=(10000,))) 
model.add (layers.Dense(16, activation='relu')) 

model.add (layers.Dense(1, activation='sigmoid')) 


邮 


3.4 电影 评论 分 类 : 二 分 类 问题 ”55 





什么 是 激活 函数 ? 为 什么 要 使 用 激活 函数 ? 


如 果 没 有 telu 等 激活 函数 (也 叫 非 线性 )，Dense 层 将 只 包含 两 个 线性 运算 一 一 点 积 
和 加 法 : 


eutpue doem mou es 


这 样 Dense 层 就 只 能 学 习 输 入 数据 的 线性 变换 ( 仿 射 变换 ) : 该 层 的 假设 空间 是 从 输 
入 数据 到 16 位 空间 所 有 可 能 的 线性 变换 集合 。 这 种 假设 空间 非常 有 限 ， 无 法 利用 多 个 表示 
层 的 优势 ， 因 为 多 个 线性 层 堆 登 实 现 的 仍 是 线性 运算 ， 添 加 层 数 并 不 会 扩展 假设 空间 。 

为 了 得 到 更 丰富 的 假设 空间 ， 从 而 充分 利用 多 层 表 示 的 优势 ， 你 需要 添加 非 线性 或 激 
活 函 数 。relu 是 深度 学 习 中 最 常用 的 激活 函数 ， 但 还 有 许多 其 他 函数 可 选 ， 它 们 都 有 类 似 
的 奇怪 名 称 ， 比 如 prelu、elu 等 。 


最 后 ， 你 需要 选择 损失 函数 和 优化 器 。 由 于 你 面 对 的 是 一 个 二 分 类 问题 ， 网 络 输出 是 一 
个 概率 值 (网络 最 后 一 层 使 用 sigmoid 激活 函数 ， 仅 包含 一 个 单元 )， 那 么 最 好 使 用 binary_ 
crossentropy ( 二 元 交叉 焙 ) 损失 。 这 并 不 是 唯一 可 行 的 选择 ， 比 如 你 还 可 以 使 用 mean_ 
squared_error( 均 方 误差 )。 但 对 于 输出 概率 值 的 模型 ， 交 叉 (crossentropy ) 往往 是 最 好 
的 选择 。 交 叉 焙 是 来 自 于 信息 论 领 域 的 概念 ， 用 于 衡量 概率 分 布 之 间 的 距离 ， 在 这 个 例子 中 就 
是 真实 分 布 与 预测 值 之 间 的 距离 。 

下 面 的 步骤 是 用 rmsprop 优化 器 和 binary_crossentropy 损失 函数 来 配置 模型 。 注 意 ， 
我 们 还 在 训练 过 程 中 监控 精度 。 


$ TD: 直 又 上 本 
代码 清单 3-4 ”编译 模型 
model .compile(optimizer='rmsprop', 
loss='binary_crossentropy', 
metrics=['accuracy']) 


上 述 代码 将 优化 器 、 损 失 函 数 和 指标 作为 字符 串 传 入 ， 这 是 因为 rmsprop、binary_ 
crossentropy 和 accuracy 都 是 Keras 内 置 的 一 部 分 。 有 时 你 可 能 希望 配置 自 定义 优化 器 的 
参数 ， 或 者 传人 自 定义 的 损失 函数 或 指标 函数 。 前 者 可 通过 向 opt imizer 参数 传人 一 个 优化 器 
类 实例 来 实现 ,如 代码 清单 3-5 所 示 ; 后 者 可 通过 向 loss 和 metrics 参数 传人 函数 对 象 来 实现 ， 
如 代码 清单 3-6 所 示 。 


代码 清单 3-5 ”配置 优化 器 


from keras import optimizers 


model .compile(optimizer=optimizers.RMSprop (lr=0.001), 
loss='binary_crossentropy', 
metrics=['accuracy']) 
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代码 清单 3-6 ”使 用 自 定义 的 损失 和 指标 
from keras import losses 
from keras import metrics 


model .compile (optimizer=optimizers.RMSprop (lr=0.001), 
loss=losses.binary_crossentropy, 
metrics=[metrics.binary_accuracy]) 


3.4.4 ”验证 你 的 方法 


为 了 在 训练 过 程 中 监控 模型 在 前 所 未 见 的 数据 上 的 精度 ， 你 需要 将 原始 训练 数据 留 出 10 000 
个 样本 作为 验证 集 。 





代码 清单 3-7 留 出 验证 集 
x val = x train[:10000] 
partial x train = x train[10000:] 


y_val = y_train[:10000] 
partial y_train = y_train[10000:] 


现在 使 用 512 个 样本 组 成 的 小 批量 ， 将 模型 训练 20 个 轮 次 ( 即 对 x_train 和 y_train 两 
个 张 量 中 的 所 有 样本 进行 20 次 迭代 )。 与 此 同时 ， 你 还 要 监控 在 留 出 的 10 000 个 样本 上 的 损失 
和 精度 。 你 可 以 通过 将 验证 数据 传人 valiqdation_data 参数 来 完成 。 


代码 清单 3-8 ”训练 模型 
model.compile(optimizer='rmsprop', 
loss='binary_crossentropy', 
metrics=['acc']) 





history = model.fit (partial x train, 
partial y_train, 
epochs=20， 
batch_size=512， 
validation data=(x_val, y_val)) 


在 CPU 上 运行 ， 每 轮 的 时 间 不 到 2 秒 ， 训 练 过 程 将 在 20 秒 内 结束 。 每 轮 结束 时 会 有 短暂 
的 停顿 ， 因 为 模型 要 计算 在 验证 集 的 10 000 个 样本 上 的 损失 和 精度 。 

注意 ， 调 用 model .fit() 返回 了 一 个 History 对 象 。 这 个 对 象 有 一 个 成 员 history, 它 
是 一 个 字典 ， 包 含 训练 过 程 中 的 所 有 数据 。 我 们 来 看 一 下 。 


>>> history_dict = history.history 
>>> history_dict.keys() 
dict_keys(['val_ acc', 'acc', 'val loss', 'loss']) 


字典 中 包含 4 个 条 目 ， 对 应 训练 过 程 和 验证 过 程 中 监控 的 指标 。 在 下 面 两 个 代码 清单 中 ， 
我 们 将 使 用 Matplotlib 在 同一 张 图 上 绘制 训练 损失 和 验证 损失 ( 见 图 3-7 )， 以 及 训练 精度 和 验 
证 精度 ( 见 图 3-8 )。 请 注意 ， 由 于 网 络 的 随机 初始 化 不 同 ， 你 得 到 的 结果 可 能 会 略 有 不 同 。 
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代码 清单 3-9 ”绘制 训练 损失 和 验证 损失 


import matplotlib.pyplot as plt 





history_dict = history.history 
loss_values = history_dict['loss'] 
val_loss_values = history_dict['val_ loss'] 


epochs = range(1, len(loss values) + 1) 


4 | 'bo' 表示 蓝 色 圆 点 


plt.plot (epochs, loss_values, 'bo', label='Training loss') 
plt.plot (epochs, val_loss values, 'b', label='Validation loss') 一 人 
ba 蓝 色 实 终 
plt.title('Training and validation loss') 表示 蓝 色 实 线 
plt .xlabel ('Epochs') 
plt.ylabel('Loss') 
plt.1legend() 
plt.show!() 





Training and validation loss 





® Training loss 
ro | Validation loss 
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图 3-7 训练 损失 和 验证 损失 


代码 清单 3-10 ”绘制 训练 精度 和 验证 精度 





plt .clf() < 一 清空 图 像 
Ge 三 TSEOC7 dict["acer] 
val_acc = history_dict['val acc'] 


plt.plot (epochs, acc, 'bo', label='Training acc') 
plt.plot (epochs, val acc, 'b', label='Validation acc') 
plt.title('Training and validation accuracy') 

plt .xlabel('Epochs') 

plt.ylabel ('Accuracy') 

plt.legend() 

plt.show!() 
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Training and validation accuracy 
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图 3-8 训练 精度 和 验证 精度 


如 你 所 见 ， 训 练 损失 每 轮 都 在 降低 ， 训 练 精度 每 轮 都 在 提升 。 这 就 是 梯度 下 降 优化 的 预期 
结果 一 一 你 想 要 最 小 化 的 量 随 着 每 次 迭代 越 来 越 小 。 但 验证 损失 和 验证 精度 并 非 如 此 : 它们 似 
乎 在 第 四 轮 达 到 最 佳 值 。 这 就 是 我 们 之 前 警告 过 的 一 种 情况 :模型 在 训练 数据 上 的 表现 越 来 越 好 ， 
但 在 前 所 未 见 的 数据 上 不 一 定 表 现 得 越 来 越 好 。 准 确 地 说 ， 你 看 到 的 是 过 拟 合 (overfit ) : 在 第 
二 轮 之 后 ， 你 对 训练 数据 过 度 优化 ， 最 终 学 到 的 表示 仪 针对 于 训练 数据 ， 无 法 泛 化 到 训练 集 之 
外 的 数据 。 

在 这 种 情况 下 ， 为 了 防止 过 拟 合 ， 你 可 以 在 3 轮 之 后 停止 训练 。 通 常 来 说 ， 你 可 以 使 用 许 
多 方法 来 降低 过 拟 合 ， 我 们 将 在 第 4 章 中 详细 介绍 。 

我 们 从 头 开始 训练 一 个 新 的 网 络 ， 训 练 4 轮 ， 然 后 在 测试 数据 上 评估 模型 。 








代码 清单 3-11 从头 开始 重新 训练 一 个 模型 





model = models.Sequential () 

model.add (layers.Dense(16, activation='relu', input_shape=(10000,))) 
model.add (layers.Dense(16, activation='relu')) 

model.add (layers.Dense(1, activation='sigmoid')) 


model.compile(optimizer='rmsprop', 
loss='binary_crossentropy', 
metrics=['accuracy']) 


model.fit (x train, y_train, epochs=4, batch size=512) 
results = model.evaluate(x test, y_test) 


最 终结 果 如 下 所 示 。 


>>> results 
[0.2929924130630493., 0.88327999999999995] 


这 种 相当 简单 的 方法 得 到 了 88% 的 精度 。 利 用 最 先进 的 方法 ， 你 应 该 能 够 得 到 接近 95% 的 
精度 。 
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3.4.5 “使 用 训练 好 的 网 络 在 新 数据 上 生成 预测 结果 


训练 好 网 络 之 后 ， 你 希望 将 其 用 于 实践 。 你 可 以 用 predict 方法 来 得 到 评论 为 正面 的 可 能 
性 大 小 。 

>>> model .predict (x_test) 

array([[ 0.98006207] 


bE O99758697] 
[0:99975556] 





OO. 


[ "82167041] 
[ 0.02885115] 
[ .65371346]], dtype=float32) 
如 你 所 见 ， 网 络 对 某 些 样本 的 结果 非常 确信 (大 于 等 于 0.99， 或 小 于 等 于 0.01 )， 但 对 其 他 
结果 却 不 那么 确信 (0.6 或 0.4)。 


[gl 














3.4.6 ”进一步 的 实验 
通过 以 下 实验 ， 你 可 以 确信 前 面 选择 的 网 络 架构 是 非常 合理 的 ， 虽 然 仍 有 改进 的 空间 。 














口 前 面 使 用 了 两 个 隐藏 层 。 你 可 以 尝试 使 用 一 个 或 三 个 隐藏 情 ， 然 后 观察 对 验证 精度 和 测 
试 精度 的 影响 。 
口 尝试 使 用 更 多 或 更 少 的 隐藏 单元 ， 比 如 32 个 、64 个 等 。 


口 


尝试 使 用 mse 损失 图 数 代 替 binary_crossentropy。 
口 尝试 使 用 tanh 激活 ( 这 种 激活 在 神经 网 络 早 期 非常 流行 ) 代替 relu。 








3.4.7 小 结 


下 面 是 你 应 该 从 这 个 例子 中 学 到 的 要 点 。 

口 通常 需要 对 原始 数据 进行 大 量 预 处 理 ， 以 便 将 其 转换 为 张 量 输入 到 神经 网 络 中 。 单 词 序 

列 可 以 编码 为 二 进 制 向 量 ， 但 也 有 其 他 编码 方式 。 

口 带 有 relu 激活 的 Dense 层 堆 琶 ， 可 以 解决 很 多 种 问题 ( 包括 情感 分 类 )， 你 可 能 会 经 

常用 到 这 种 模型 。 

口 对 于 二 分 类 问题 〈 两 个 输出 类 别 )， 网 络 的 最 后 一 层 应 该 是 只 有 一 个 单元 并 使 用 sigmoia 

激活 的 Dense 层 ， 网 络 输出 应 该 是 0~1 范围 内 的 标量 ， 表 示 概 率 值 。 

口 对 于 二 分 类 问题 的 sigmoid 标量 输出 ， 你 应 该 使 用 binary_crossentropy 损失 孙 数 。 

无 论 你 的 问题 是 什么 ，rmsprop 优化 器 通常 都 是 足够 好 的 选择 。 这 一 点 你 无 须 担 心 。 

口 随 着 神经 网 络 在 训练 数据 上 的 表现 越 来 越 好 ， 模 型 最 终 会 过 拟 合 ， 并 在 前 所 未 见 的 数据 
上 得 到 越 来 越 差 的 结果 。 一 定 要 一 直 监 控 模 型 在 训练 集 之 外 的 数据 上 的 性 能 。 


3.5 ”新闻 分 类 : 多 分 类 问题 
上 一 节 中 ， 我 们 介绍 了 如 何 用 密集 连接 的 神经 网 络 将 向 量 输入 划分 为 两 个 互 斥 的 类 别 。 但 









































口 
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如 果 类 别 不 止 两 个 ， 要 怎么 做 ? 

本 节 你 会 构建 一 个 网 络 ， 将 路 透 社 新 闻 划 分 为 46 个 互 斥 的 主题 。 因 为 有 多 个 类 别 ， 所 以 
这 是 多 分 类 ( multiclass classification ) 问题 的 一 个 例子 。 因 为 每 个 数据 点 只 能 划分 到 一 个 类 别 ， 
所 以 更 具体 地 说 ， 这 是 单 标 签 、 多 分 类 (single-label, multiclass classification ) 问题 的 一 个 例 
子 。 如 果 每 个 数据 点 可 以 划分 到 多 个 类 别 ( 主题 )， 那 它 就 是 一 个 多 标签 、 多 分 类 ( multilabel, 


multiclass classification ) 问题 。 


3.5.1 路透 社 数 据 集 


本 节 使 用 路 透 社 数据 集 ， 它 包含 许多 短 新 闻 及 其 对 应 的 主题 ， 由 路 透 社 在 1986 年 发 布 。 它 
是 一 个 简单 的 、 广 泛 使 用 的 文本 分 类 数据 集 。 它 包括 46 个 不 同 的 主题 : 某 些 主题 的 样本 更 多 ， 
但 训练 集中 每 个 主题 都 有 至 少 10 个 样本 。 

与 IMDB 和 MNIST 类 似 ， 路 透 社 数据 集 也 内 置 为 Keras 的 一 部 分 。 我 们 来 看 一 下 。 





代码 清单 3-12 ”加 载 路 透 社 数据 集 


from keras.datasets import reuters 


(train_ data, train_ labels), (test_data, test_labels) = reuters.l1oad datal 
num_ words=10000) 


与 IMDB 数据 集 一 样 , 参数 num_worgds=10000 将 数据 限定 为 前 10 000 个 最 常 出 现 的 单词 。 
我 们 有 8982 个 训练 样本 和 2246 个 测试 样本 。 


>>> len(train data) 
8982 
>>> lenl(test_data) 
2246 


与 IMDB 评论 一 样 ， 每 个 样本 都 是 一 个 整数 列表 ( 表示 单词 索引 )。 


>>> train datal[l10] 
Ll; B45 .273 207y 156 B53 7T4y L160, 26, 14, ‘46 296, 26 39; T742979; 
3554, 14, 46, 4689, 4329, 86, 61, 3499, 4795, 14, 61, 451, 4329, 17, 12] 


如 果 好 奇 的 话 ， 你 可 以 用 下 列 代码 将 索引 解码 为 单词 。 





代码 清单 3-13 “将 索引 解码 为 新 闻 文 本 


word_index = euters.det_wordq_index() 
reverse word_ index = dict([(value, key) for (key, value) in word index.items()] 
decodeqd newswire = ' '.joinl([reverse word index.get (i - 3, '?') for i in 


train data[0]]) 
注意 ， 索 引 减 去 了 3， 因为 0、1、2 是 为 “padding”( 填 充 )、"“start of 
sequence”( 序 列 开 始 )、“unknown”( 未 知 词 ) 分 别 保留 的 索引 
样本 对 应 的 标签 是 一 个 0~45 范围 内 的 整数 ， 即 话题 索引 编号 。 


>>> train_ labels[10] 
3 
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3.5.2 ”准备 数据 
你 可 以 使 用 与 上 一 个 例子 相同 的 代码 将 数据 向 量化 。 
代码 清单 3-14 ”编码 数据 





import numpy as np 


def vectorize_ sequences (sequences, dimension=10000): 
results = np.zeros((len(sequences), dimension)) 
for i, sequence in enumerate(sequences): 
results[i, sequence] = 1. 
return results 


x_train = vectorize_sequences (train_data) < 一 将 训练 数据 向 量化 
x_test = vectorize_sequences (test_data) 一 将 测试 数据 向 量化 


将 标签 向 量化 有 两 种 方法 : 你 可 以 将 标签 列表 转换 为 整数 张 量 ， 或 者 使 用 one-hot 编码 。 
one-hot 编码 是 分 类 数据 广泛 使 用 的 一 种 格式 ， 也 叫 分 类 编码 ( categorical encoding )。6.1 节 给 出 
了 one-hot 编码 的 详细 解释 。 在 这 个 例子 中 ,标签 的 one-hot 编码 就 是 将 每 个 标签 表示 为 全 零 向 量 ， 
只 有 标签 索引 对 应 的 元 素 为 1。 其 代码 实现 如 下 。 


def to_one hot (labels, dimension=46): 
results = np.zeros((len(labels), dimension)) 
for i, label in enumerate(labels): 
results[i, label] = 1. 
return results 











one_hot_ train labels = to_one hot (train labels) 一 将 训练 标签 向 量化 
one_hot_test_labels = to_one_ hot (test_labels) 一 将 测试 标签 向 量化 





注意 ，Keras 内 置 方法 可 以 实现 这 个 操作 ， 你 在 MNIST 例子 中 已 经 见 过 这 种 方法 。 
from keras.utils.np utils import to_categorical 


one_hot_ train labels = to_ categorical (train _ labels) 
one_hot_test_labels = to_categorical (test_labels) 


3.5.3 ”构建 网 络 


这 个 主题 分 类 问题 与 前 面 的 电影 评论 分 类 问题 类 似 ， 两 个 例子 都 是 试图 对 简短 的 文本 片段 
进行 分 类 。 但 这 个 问题 有 一 个 新 的 约束 条 件 : 输出 类 别 的 数量 从 2 个 变 为 46 个 。 输 出 空间 的 维 
度 要 大 得 多 。 

对 于 前 面 用 过 的 Dense 层 的 堆 琶 ,每 层 只 能 访问 上 一 层 输 出 的 信息 。 如 果 某 一 层 丢 失 了 与 
分 类 问题 相关 的 一 些 信 息 ， 那 么 这 些 信息 无 法 被 后 面 的 层 找 回 ， 也 就 是 说 ， 每 一 层 都 可 能 成 为 
信息 瓶颈 。 上 一 个 例子 使 用 了 16 维 的 中 间 层 ， 但 对 这 个 例子 来 说 16 维 空间 可 能 太 小 了 ， 无 法 
学 会 区 分 46 个 不 同 的 类 别 。 这 种 维度 较 小 的 层 可 能 成 为 信息 瓶 贷 ， 永久 地 丢失 相关 信息 。 

出 于 这 个 原因 ， 下 面 将 使 用 维度 更 大 的 层 ， 包 含 64 个 单元 。 














62 第 3 章 神经 网 络 入 门 





代码 清单 3-15 “模型 定义 





from keras import models 
from keras import layers 


model = models.Sequential () 

model.add (layers.Dense(64, activation='relu', input_shape=(10000,))) 
model.add (layers.Dense(64, activation='relu')) 

model.add (layers.Dense(46, activation='softmax')) 


关于 这 个 架构 还 应 该 注意 另外 两 点 。 
口 网 络 的 最 后 一 层 是 大 小 为 46 的 Dense 层 。 这 意味 着 ， 对 于 每 个 输入 样本 ， 网 络 都 会 输 
出 一 个 46 维 向 量 。 这 个 向 量 的 每 个 元 素 ( 即 每 个 维度 ) 代表 不 同 的 输出 类 别 。 
口 最 后 一 层 使 用 了 softmax 激活 。 你 在 MNIST 例子 中 见 过 这 种 用 法 。 网 络 将 输出 在 46 
个 不 同 输出 类 别 上 的 概率 分 布 一 一 对 于 每 一 个 输入 样本 ， 网 络 都 会 输出 一 个 46 维 向 量 ， 
其 中 output [i] 是 样本 属于 第 i 个 类 别 的 概率 。46 个 概率 的 总 和 为 1。 
对 于 这 个 例子 ， 最 好 的 损失 函数 是 categorical_crossentropy (分 类 交叉 炉 )。 它 用 于 
衡量 两 个 概率 分 布 之 间 的 距离 ， 这 里 两 个 概率 分 布 分 别 是 网 络 输出 的 概率 分 布 和 标签 的 真实 分 
布 。 通 过 将 这 两 个 分 布 的 距离 最 小 化 ， 训 练 网 络 可 使 输出 结果 尽 可 能 接近 真实 标签 。 


model.compile(optimizer='rmsprop', 
loss='categorical_crossentropy', 
metrics=['accuracy']) 








3.5.4 验证 你 的 方法 
我 们 在 训练 数据 中 留 出 1000 个 样本 作为 验证 集 。 
代码 清单 3-17 留 出 验证 集 





x_val = x train[:1000] 
partial x train = x train[1000:] 


y_val = one_ hot train labels[:1000] 
partial y_train = one hot_ train labels[1000:] 


现在 开始 训练 网 络 ， 共 20 个 轮 次 。 


代码 清单 3-18 ”训练 模型 





history = model.fit (partial x train, 
partial y_train, 
epochs=20， 
batch_ size=512, 
validation data=(x_val, y_val)) 


最 后 ， 我 们 来 绘制 损失 曲线 和 精度 曲线 ( 见 图 3-9 和 图 3-10 )。 
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Training and validation loss 
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图 3-10 训练 精度 和 验证 精度 





代码 清单 3-19 人 绘 


import matplotlib.pyplot as plt 


loss = history.history['loss'] 
val_loss = history.history['val_ loss'] 


epochs = range(1, len(loss) + 1) 


plt.plot (epochs, loss, 'bo', label='Training loss') 
plt.plot (epochs, val_loss, 'b', label='Validation loss') 
plt.title('Training and validation loss') 

plt .xlabel('Epochs') 

plt.ylabel('Loss') 

plt.legend() 


plt.show!() 
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代码 清单 3-20 ”绘制 训练 精度 和 验证 精度 


plt.clf() < 一 清空 图 像 


Aacc = history.historyl'acce:] 
val_acc = history.history['val_acc'] 


t.plot (epochs, acc, 'bo', label='Training acc') 

t.plot (epochs, val_acc, 'b', label='Validation acc') 
It.title('Training and validation accuracy') 
入 
t 
t 





.Xlabel ('Epochs') 
.ylabel ('Accuracy') 
.legend() 





plt.show() 


网 络 在 训练 9 轮 后 开始 过 拟 合 。 我 们 从 头 开始 训练 一 个 新 网 络 ， 共 9 个 轮 次 ， 然 后 在 测试 
集 上 评估 模型 。 





代码 清单 3-21 ”从 头 开始 重新 训练 一 个 模型 


model = models.Sequential () 

model.add (layers.Dense(64, activation='relu', input_shape=(10000,))) 
model.add (layers.Dense(64, activation='relu')) 

model.add (layers.Dense(46, activation='softmax')) 


model .compile (optimizer='rmsprop', 
loss='categorical_crossentropy', 
metrics=['accuracy']) 
model.fit(partial x train, 

partial y_train, 

epochs=9,， 

batch size=512, 

validation_ data=(x_val, y_val)) 
results = model.evaluate(x test, one_ hot_test_labels) 


最 终结 果 如 下 。 


>>> results 
[0:9565213431445807, 0..79697239536954589] 


这 种 方法 可 以 得 到 约 80% 的 精度 。 对 于 平衡 的 二 分 类 问题 ， 完 全 随机 的 分 类 器 能 够 得 到 
50% 的 精度 。 但 在 这 个 例子 中 ， 完 全 随机 的 精度 约 为 19%， 所 以 上 述 结果 相当 不 错 ， 至 少 和 随 
机 的 基准 比 起 来 还 不 错 。 

>>> import copy 

>>> test_labels_copy = copy.copy (test_labels) 

>>> np.random.shuffle(test_labels_copy) 

>>> hits_array = np.array (test_labels) == np.array (test_labels_copy) 


>>> float (np.sum(hits_array)) / len(test_labels) 
0.18655387355298308 











3.5.5 ”在 新 数据 上 生成 预测 结果 


你 可 以 验证 ,模型 实例 的 predict 方法 返回 了 在 46 个 主题 上 的 概率 分 布 。 我 们 对 所 有 测 
试 数据 生成 主题 预测 。 


代码 清单 3-22 ”在 新 数据 上 生成 预测 结果 





predictions = model.predict (x_test) 


predictions 中 的 每 个 元 素 都 是 长 度 为 46 的 向 量 。 
>>> Predictions [0] .shape 
(46,) 


这 个 向 量 的 所 有 元 素 总 和 为 1。 


>>> np.sum(predictions[0]) 
1.0 


最 大 的 元 素 就 是 预测 类 别 ， 即 概率 最 大 的 类 别 。 


>>> np.argmax (predictions[0]) 
4 


3.5.6 ”处 理 标 签 和 损失 的 另 一 种 方法 
前 面 提 到 了 男 一 种 编码 标签 的 方法 ， 就 是 将 其 转换 为 整数 张 量 ， 如 下 所 示 。 


y_train = np.array (train_ labels) 
y_test = np.array (test_labels) 


对 于 这 种 编码 方法 ， 唯 一 需要 改变 的 是 损失 函数 的 选择 。 对 于 代码 清单 3-21 使 用 的 损失 
困 数 categorical_crossentropy， 标 签 应 该 遵循 分 类 编码 。 对 于 整数 标签 ， 你 应 该 使 用 
sparse_categorical crossentropyo 


model .compile (optimizer='rmsprop', 
loss='sparse_categorical_ crossentropy', 
metrics=['acc']) 


这 个 新 的 损失 函数 在 数学 上 与 categorical_crossentropy 完全 相同 ,二 者 只 是 接口 不 同 。 


3.5.7 ”中 间 层 维度 足够 大 的 重要 性 


前 面 提 到 ， 最 终 输 出 是 46 维 的 ， 因 此 中 间 层 的 隐藏 单元 个 数 不 应 该 比 46 小 太 多 。 现 在 来 
看 一 下 ， 如 果 中 间 层 的 维度 远 远 小 于 46( 比如 4 维 )， 造 成 了 信息 瓶 贷 ， 那么 会 发 生 什么 ? 











代码 清单 3-23 ”具有 信息 瓶颈 的 模型 





model = models.Sequential() 

model.add (layers.Dense(64, activation='relu', input_shape=(10000,))) 
model.add (layers.Dense(4, activation='relu')) 

model.add (layers.Dense(46, activation='softmax')) 
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model.compile(optimizer='rmsprop', 
loss='categorical_ crossentropy', 
metrics=['accuracy']) 
model.fit (partial_ x train, 
partial _y_train, 
epochs=20, 
batch size=128, 
validation data=(x_val, y_val)) 


现在 网 络 的 验证 精度 最 大 约 为 71%， 比 前 面 下 降 了 8%。 导 和 致 这 一 下 降 的 主要 原因 在 于 ， 你 
试图 将 大 量 信息 ( 这 些 信息 足够 恢复 46 个 类 别 的 分 割 超 平面 ) 压缩 到 维度 很 小 的 中 间 空 间 。 网 
络 能 够 将 大 部 分 必要 信息 塞 和 人 这 个 四 维 表示 中 ， 但 并 不 是 全 部 信息 。 


3.5.8 进一步 的 实验 


口 尝试 使 用 更 多 或 更 少 的 隐藏 单元 ， 比 如 32 个 、128 个 等 。 
口 前 面 使 用 了 两 个 隐藏 层 ， 现 在 尝试 使 用 一 个 或 三 个 隐藏 层 。 












































3.5.9 小 结 


下 面 是 你 应 该 从 这 个 例子 中 学 到 的 要 点 。 
口 如 果 要 对 N 个 类 别 的 数据 点 进行 分 类 ， 网 络 的 最 后 一 层 应 该 是 大 小 为 YX 的 Dense 层 。 
口 对 于 单 标签 、 多 分 类 问题 ， 网 络 的 最 后 一 层 应 该 使 用 softmax 激活 ， 这 样 可 以 输出 在 N 
个 输出 类 别 上 的 概率 分 布 。 
口 这 种 问题 的 损失 函数 几乎 总 是 应 该 使 用 分 类 交 义 焙 。 它 将 网 络 输 出 的 概率 分 布 与 目标 的 
真实 分 布 之 间 的 距离 最 小 化 。 
口 处 理 多 分 类 问题 的 标签 有 两 种 方法 。 
a 通过 分 类 编码 (也 叫 one-hot 编码 ) 对 标签 进行 编码 ， 然 后 使 用 categorical_ 
crossentropy 作为 损失 函数 。 
s 将 标签 编码 为 整数 ， 然 后 使 用 sparse_categorical_crossentropy 损失 函数 。 
口 如 果 你 需要 将 数据 划分 到 许多 类 别 中 ， 应 该 避免 使 用 太 小 的 中 间 层 ， 以 免 在 网 络 中 造成 
信息 瓶颈 。 


3.6 ”预测 房价 : 回归 问题 

前 面 两 个 例子 都 是 分 类 问题 ， 其 目标 是 预测 输入 数据 点 所 对 应 的 单一 离散 的 标签 。 另 一 种 
常见 的 机 器 学 习 问 题 是 回归 问题 ， 它 预测 一 个 连续 值 而 不 是 离散 的 标签 例如， 根据 气象 数据 
预测 明天 的 气温 ， 或 者 根据 软件 说 明 书 预测 完成 软件 项 目 所 需要 的 时 间 。 





















































注意 不 要 将 回归 问题 与 logistic 回归 算法 混为一谈 。 令 人 困惑 的 是 ,logistic 回归 不 是 回归 算法 ， 
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3.6.1 波士顿 房价 数据 集 


本 节 将 要 预测 20 世纪 70 年 代 中 期 波士顿 郊区 房屋 价格 的 中 位 数 ， 已 知 当 时 郊区 的 一 些 数 
据点 ， 比 如 犯罪 率 、 当 地 房产 税率 等 。 本 节 用 到 的 数据 集 与 前 面 两 个 例子 有 一 个 有 趣 的 区 别 。 
它 包含 的 数据 点 相对 较 少 ， 只 有 506 个 ， 分 为 404 个 训练 样本 和 102 个 测试 样本 。 输 入 数据 的 
每 个 特征 〈 比如 犯罪 率 ) 都 有 不 同 的 取 值 范围 。 例 如 ， 有 些 特 性 是 比例 ， 取 值 范围 为 0-1; 有 
的 取 值 范 围 为 1~12; 还 有 的 取 值 范围 为 0~100， 等 等 。 


代码 清单 3-24 ”加 载波 士 顿 房价 数据 





from keras.datasets import boston housing 


(train data, train targets), (test_data, test_ targets) = boston housing.load datal() 

我 们 来 看 一 下 数据 。 

>>> train data.shape 

(404, 13) 

>>> test_data.shape 

(102; 13) 

如 你 所 见 ， 我 们 有 404 个 训练 样本 和 102 个 测试 样本 ， 每 个 样本 都 有 13 个 数值 特征 ， 比 如 
人 均 犯 罪 率 、 每 个 住宅 的 平均 房间 数 、 高 速 公路 可 达 性 等 。 

目标 是 房屋 价格 的 中 位 数 ， 单 位 是 千 美 元 。 


>>> train targets 
draytl Las AMZ:3 SO ws Lg. T9444, ‘29.51]) 


房价 大 都 在 10 000~50 000 美元 。 如 果 你 觉得 这 很 便宜 ， 不 要 忘记 当时 是 20 世纪 70 年 代 中 
期 ， 而 且 这 些 价 格 没有 根据 通货 膨胀 进行 调整 。 


3.6.2 ”准备 数据 
将 取 值 范围 差异 很 大 的 数据 输入 到 神经 网 络 中 ， 这 是 有 问题 的 。 网 络 可 能 会 自动 适应 这 种 
取 值 范围 不 同 的 数据 ， 但 学 习 表 定 变 得 更 加 困难 。 对 于 这 种 数据 ， 普 遍 采用 的 最 佳 实践 是 对 每 


个 特征 做 标准 化 ， 即 对 于 输入 数据 的 每 个 特征 ( 输入 数据 矩阵 中 的 列 )， 减 去 特征 平均 值 ， 再 除 
以 标准 差 ， 这 样 得 到 的 特征 平均 值 为 0， 标 准 差 为 1。 用 Numpy 可 以 很 容易 实现 标准 化 。 














代码 清单 3-25 ”数据 标准 化 





mean = train data.mean (axis=0) 
train data -= mean 

std = train datastd (axiss0) 
train data /= std 


test_data -= mean 
test_data /= std 
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注意 ， 用 于 测试 数据 标准 化 的 均值 和 标准 差 都 是 在 训练 数据 上 计算 得 到 的 。 在 工作 流程 中 ， 
你 不 能 使 用 在 测试 数据 上 计算 得 到 的 任何 结果 ， 即 使 是 像 数 据 标准 化 这 么 简单 的 事情 也 不 行 。 


3.6.3 ”构建 网 络 


由 于 样本 数量 很 少 ， 我 们 将 使 用 一 个 非常 小 的 网 络 ， 其 中 包含 两 个 隐藏 层 ， 每 层 有 64 个 单 
元 。 一 般 来 说 ， 训 练 数据 越 少 ， 过 拟 合 会 越 严 重 ， 而 较 小 的 网 络 可 以 降低 过 拟 合 。 
代码 清单 3-26 ”模型 定义 


from keras import models 
from keras import layers 





因为 需要 将 同一 个 模型 多 次 实例 化 ， 
def builgd model () HH 所 以 用 一 个 函数 来 构建 模型 
model = models.Sequential () 


model.add (layers.Dense(64, activation='relu', 
input_shape= (train data.shape[1],))) 

model.add (layers.Dense(64, activation='relu')) 

model.add (layers.Dense(1)) 

model.compile (optimizer='rmsprop', loss='mse', metrics=['mae']) 

return model 


网 络 的 最 后 一 层 只 有 一 个 单元 ， 没 有 激活 ， 是 一 个 线性 层 。 这 是 标量 回归 ( 标量 回归 是 预 
测 单一 连续 值 的 回归 ) 的 典型 设置 。 添 加 激活 函数 将 会 限制 输出 范围 。 例 如 ， 如 果 向 最 后 一 层 
添加 sigmoia 激活 函数 ， 网 络 只 能 学 会 预测 0~1 范围 内 的 值 。 这 里 最 后 一 层 是 纯 线性 的 ， 所 以 
网 络 可 以 学 会 预测 任意 范围 内 的 值 。 

注意 ， 编 译 网 络 用 的 是 mse 损失 函数 ， 即 均 方 误差 ( MSE，mean squared error )， 预 测 值 与 
目标 值 之 差 的 平方 。 这 是 回归 问题 常用 的 损失 函数 。 

在 训练 过 程 中 还 监控 一 个 新 指标 : 平均 绝对 误差 ( MAE，mean absolute error )。 它 是 预测 值 
与 目标 值 之 差 的 绝对 值 。 比 如 ， 如 果 这 个 问题 的 MAE 等 于 0.5， 就 表示 你 预测 的 房价 与 实际 价 
格 平均 相差 500 美元 。 


3.6.4 ”利用 KK 折 验 证 来 验证 你 的 方法 


为 了 在 调节 网 络 参数 ( 比如 训练 的 轮 数 ) 的 同时 对 网 络 进行 评估 ， 你 可 以 将 数据 划分 为 训 
练 集 和 验证 集 ， 正 如 前 面 例子 中 所 做 的 那样 。 但 由 于 数据 点 很 少 ， 验 证 集会 非常 小 〈 比 如 大 约 
100 个 样本 )。 因 此 ， 验 证 分 数 可 能 会 有 很 大 波动 ， 这 取决 于 你 所 选择 的 验证 集 和 训练 集 。 也 就 
是 说 ， 验 证 集 的 划分 方式 可 能 会 造成 验证 分 数 上 有 很 大 的 方差 ， 这 样 就 无 法 对 模型 进行 可 靠 的 
评估 。 

在 这 种 情况 下 ， 最 佳 做 法 是 使 用 K 折 交 义 验证 ( 见 图 3-11 )。 这 种 方法 将 可 用 数据 划分 为 天 
个 分 区 (通常 取 4 或 5)， 实 例 化 K 个 相同 的 模型 ， 将 每 个 模型 在 K-1 个 分 区 上 训练 ， 并 在 剩 
下 的 一 个 分 区 上 进行 评估 。 模 型 的 验证 分 数 等 于 天 个 验证 分 数 的 平均 值 。 这 种 方法 的 代码 实现 
很 简单 。 
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将 数据 划分 为 3 个 分 区 
第 1 折 { 给 证 训练 训练 “| 一 ~ 全 
第 2 折 { 训练 答 证 训练 “| 一 ~ 
第 3 折 { 训练 训练 验证 “| 一 ~ 























代码 清单 3-27 天 折 验 证 


import numpy as np 


k= 要 
num val_ samples = len(train data) // k 
num_ epochs = 100 
all_scores = [] 
准备 验证 数据 : 第 k 个 
for i in range(K) : 分 区 的 数据 
Drint('Processing fold #', i) 
val_data = train datal[li * num val samples: (i + 1) * num val_samples] 
val_ targets = train targets[i * num val_ samples: (i + 1) * num val_ samples] 


partial_train data = np.concatenate( < 一 准备 训练 数据 : 其 他 所 有 分 区 的 数据 
[train data[:i * num val_samples], 
train data[(i + 1) * num val_ samples:]], 
axis=0) 
partial_ train targets = np.concatenatel( 
[train targets[:i * num val_samples], 
train targets[(i + 1) * num val_ samples:]], 
axis=0) 


model = build_model () ”< 一 构建 Keras 模型 (已 编译 ) 
model.fit (partial train data, partial train targets, 
epochs=num_ epochs, batch size=1, verbose=0) 
val_ mse, val mae = model.evaluate(val_ data, val_ targets, verbose=0) 
all_scores.append (val_mae) 在 验证 数据 上 


评估 模型 


verbose=0) 


| 训练 模型 (静默 模式 ， 


设置 num_epochs = 100， 运 行 结 果 如 下 。 


>>> all_scores 
[2.588258957792037，3.1289568449719116，3.1856116051248984，3.0763342615401386] 
>>> np.mean(all_scores) 

2.9947904173572462 
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每 次 运行 模型 得 到 的 验证 分 数 有 很 大 差异 ， 从 2.6 到 3.2 不 等 。 平均 分 数 (3.0 ) 是 比 单一 
分 数 更 可 靠 的 指标 一 一 这 就 是 K 折 交叉 验证 的 关键 。 在 这 个 例子 中 ， 预 测 的 房价 与 实际 价格 平 
均 相 差 3000 美元 ， 考 虑 到 实际 价格 范围 在 10 000~50 000 美元 ， 这 一 差别 还 是 很 大 的 。 

我 们 让 训练 时 间 更 长 一 点 ， 达 到 500 个 轮 次 。 为 了 记录 模型 在 每 轮 的 表现 ， 我 们 需要 修改 
训练 循环 ， 以 保存 每 轮 的 验证 分 数 记录 。 








代码 清单 3-28 ”保存 每 折 的 验证 结果 





nurm_epochs = 500 

all mae histories = [] 准备 验证 数据 : 第 Kk 个 

for i in zange(k) : 分 区 的 数据 
print('processing fold #', i) 
val_data = train datal[li * num val_samples: (i + 1) * num val_samples] 
val_targets = train targets[i * num val_ samples: (i + 1) * num val_samples] 


partial train data = np.concatenatel( < 一 准备 训练 数据 : 其 他 所 有 分 区 的 数据 
[train data[:i * num val_sarmples]， 
train data[(i + 1) * num val_samples:]], 
XTiS=0) 


partial_ train targets = np.concatenatel 
[train targets[:i * num val_ samples], 
train targets[(i + 1) * num val samples:]], 
XLS=0) 


model = build_model () ”< 一 构建 Keras 模型 (已 编译 ) 

history = model.fit (partial train data, partial train targets, 
validation data=(val_ data, val_ targets), 
epochs=num_epochs, batch size=1, verbose=0) 

mae_history = history.history['val_mean absolute error'] 

all_mae_histories.append (mae_history) 





训练 模型 〈 静 默 模式 ， 


verbose=0) 


然后 你 可 以 计算 每 个 轮 次 中 所 有 折 MAE 的 平均 值 。 
清单 3-29 计算 所 有 轮 次 中 的 人 K 折 验证 分 数 平均 值 





average mae history = [ 
np.mean([x[i] for x in all mae histories]) for i in range (num epochs)] 


我 们 画图 来 看 一 下 ， 见 图 3-12。 





代码 清单 3-30 ”绘制 验证 分 数 


import matplotlib.pyplot as plt 


plt.plot (range(1, len(average mae history) + 1), average mae_history) 
plt.xlabel ('Epochs') 

plt.ylabel('Validation MAE ' ) 

plt.show() 
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图 3-12 每 轮 的 验证 MAE 


因为 纵 轴 的 范围 较 大 ， 且 数据 方差 相对 较 大 ， 所 以 难以 看 清 这 张 图 的 规律 。 我 们 来 重新 绘 
制 一 张 图 。 
口 删除 前 10 个 数据 点 ， 因 为 它们 的 取 值 范围 与 曲线 上 的 其 他 点 不 同 。 
口 将 每 个 数据 点 替换 为 前 面 数据 点 的 指数 移动 平均 值 ， 以 得 到 光滑 的 曲线 。 
结果 如 图 3-13 所 示 。 





代码 清单 3-31 绘制 验证 分 数 ( 删除 前 10 个 数据 点 ) 





def smooth_ curve(points, factor=0.9): 
smoothed points = [] 
for point in points: 
if smoothed points: 
previous = smoothed points[-1] 
smoothed points.append(previous * factor + point * (1 - factor)) 
else: 
smoothed_ points.append (point) 
return smoothed points 


smooth mae history = smooth curve(average mae history[10:]) 


plt.plot (range(1, len(smooth mae history) + 1), smooth mae_ history) 
plt .xlabel('Epochs') 

plt.ylabel('Validation MAE ' ) 

plt.show!() 
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从 图 3-13 可 以 看 出 ， 验 证 MAE 在 80 轮 后 不 再 显著 降低 ， 之 后 就 开始 过 拟 合 。 
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图 3-13 每 轮 的 验证 MAE (删除 前 10 个 数据 点 ) 


完成 模型 调 参 之 后 ( 除了 轮 数 ， 还 可 以 调节 隐藏 层 大 小 )， 你 可 以 使 用 最 佳 参数 在 所 有 训练 
数据 上 训练 最 终 的 生产 模型 ， 然 后 观察 模型 在 测试 集 上 的 性 能 。 





代码 清单 3-32 ”训练 最 终 模 型 





model = builgd model () -4 一 个 全 新 的 编译 好 的 模型 


model.fit (train data, train targets, 在 所 有 训练 数据 上 训练 模型 
epochs=80, batch_ size=16, verbose=0) 


test_mse_score, test_ mae_score = model.evaluate(test data, test_ targets) 


最 终结 果 如 下 。 


>>> test_mae_score 
2.5532484335057877 


你 预测 的 房价 还 是 和 实际 价格 相差 约 2550 美元 。 
3.6.5 小结 


下 面 是 你 应 该 从 这 个 例子 中 学 到 的 要 点 。 

口 回归 间 题 使 用 的 损失 函数 与 分 类 问题 不 同 。 回 归 常 用 的 损失 函数 是 均 方 误差 ( MSE )。 

口 同样 ， 回 归 问 题 使 用 的 评估 指标 也 与 分 类 问题 不 同 。 显 而 易 见 ， 精 度 的 概念 不 适用 于 回 
归 间 题 。 常 见 的 回归 指标 是 平均 绝对 误差 ( MAE )。 

口 如 果 输 入 数据 的 特征 具有 不 同 的 取 值 范围 ， 应 该 先进 行 预 处 理 ， 对 每 个 特征 单独 进行 
缩放 。 

口 如 果 可 用 的 数据 很 少 ， 使 用 居 折 验证 可 以 可 靠 地 评估 模型 。 

口 如 果 可 用 的 训练 数据 很 少 ， 最 好 使 用 隐藏 层 较 少 (通常 只 有 一 到 两 个 ) 的 小 型 网 络 ， 以 
避免 严重 的 过 拟 合 。 
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本 章 小 结 


口 现在 你 可 以 处 理 关 于 向 量 数据 最 常见 的 机 器 学 习 任务 了 : 二 分 类 问题 、 多 分 类 问题 和 标 
量 回归 问题 。 前 面 三 节 的 “小 结 ” 总 结 了 你 从 这 些 任 务 中 学 到 的 要 点 。 

D 在 将 原始 数据 输入 神经 网 络 之 前 ， 通 常 需要 对 其 进行 预 处 理 。 
口 如 果 数 据 特征 具有 不 同 的 取 值 范 围 ， 那 么 需要 进行 预 处 理 ， 将 每 个 特征 单独 缩放 。 

口 随 着 训练 的 进行 ， 神 经 网 络 最 终 会 过 拟 合 ， 并 在 前 所 未 见 的 数据 上 得 到 更 差 的 结果 。 

口 如 果 训 练 数据 不 是 很 多 ， 应 该 使 用 只 有 一 两 个 隐藏 层 的 小 型 网 络 ， 以 避免 严重 的 过 拟 合 。 

口 如 果 数 据 被 分 为 多 个 类 别 ， 那 么 中 间 层 过 小 可 能 会 导致 信息 瓶 贷 。 

口 回归 问题 使 用 的 损失 函数 和 评估 指标 都 与 分 类 问题 不 同 。 
口 如 果 要 处 理 的 数据 很 少 , K 折 验证 有 助 于 可 靠 地 评估 模型 。 






































机 器 学 习 基 础 





本 章 包括 以 下 内 容 : 

口 除 分 类 和 回归 之 外 的 机 器 学 习 形 式 
口 评估 机 器 学 习 模型 的 规范 流程 

口 为 深度 学 习 准 备 数据 

口 特征 工程 

口 解决 过 拟 合 

口 处 理 机 需 学 习 问 题 的 通用 工作 流程 











学 完 第 3 昔 的 三 个 实例 ， 你 应 该 已 经 知道 如 何 用 神经 网 络 解决 分 类 问题 和 回归 问题 ， 而 且 
也 看 到 了 机 天 学 习 的 核心 难题 : 过 拟 合 。 本 章 会 将 你 对 这 些 问 题 的 直觉 固化 为 解决 深度 学 习 问 
题 的 可 靠 的 概念 框架 。 我 们 将 把 所 有 这 些 概 念 一 一 模型 评估 、 数 据 预 处 理 、 特 征 工程 、 解 决 过 
拟 合 一 一 整合 为 详细 的 七 步 工 作 流程 ， 用 来 解决 任何 机 器 学 习 任 务 。 


4.1 机 器 学 习 的 四 个 分 支 


在 前 面 的 例子 中 ， 你 已 经 熟悉 了 三 种 类 型 的 机 需 学 习 问 题 : 二 分 类 问题 、 多 分 类 问题 和 标 
量 回 归 问 题 。 这 三 者 都 是 监督 学 习 (supervised learning ) 的 例子 ， 其 目标 是 学 习 训练 输入 与 训 
练 目标 之 间 的 关系 。 

监督 学 习 只 是 冰山 一 角 一 一 机 顺 学 习 是 非常 宽泛 的 领域 ， 其 子 领域 的 划分 非常 复 条 。 机 天 
学 习 算 法 大 致 可 分 为 四 大 类 ， 我 们 将 在 接 下 来 的 四 小 节 中 依次 介绍 。 











4.1.1 监督 学 习 





监督 学 习 是 目前 最 常见 的 机 器 学 习 类 型 。 给 定 一 组 样本 (通常 由 人 工 标注 )， 它 可 以 学 会 将 
输入 数据 映射 到 已 知 目标 [ 也 叫 标注 (annotation ) ]。 本 书 前 面 的 四 个 例子 都 属于 监督 学 习 。 一 
般 来 说 ， 近 年 来 广 受 关注 的 深度 学 习 应 用 几乎 都 属于 监督 学 习 ， 比 如 光学 字符 识别 、 语 音 识别 、 
图 像 分 类 和 语言 翻译 。 

虽然 监督 学 习 主 要 包括 分 类 和 回归 ， 但 还 有 更 多 的 奇特 变 体 ， 主 要 包括 如 下 几 种 。 
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口 序列 生成 (sequence generation )。 给 定 一 张 图 像 ， 预 测 描述 网 像 的 文字 。 序 列 生成 有 时 

可 以 被 重新 表示 为 一 系列 分 类 问题 ， 比 如 反复 预测 序列 中 的 单词 或 标记 。 

口 语法 树 预 测 〈( syntax tree prediction )。 给 定 一 个 句子 ， 预 测 其 分 解 生成 的 语法 树 。 

口 目标 检测 (object detection )。 给 定 一 张 图 像 ， 在 图 中 特定 目标 的 周围 画 一 个 边界 框 。 这 
个 问题 也 可 以 表示 为 分 类 问题 ( 给 定 多 个 候选 边界 框 ， 对 每 个 框 内 的 目标 进行 分 类 ) 或 
分 类 与 回归 联合 问题 ( 用 向 量 回归 来 预测 边界 框 的 坐标 )。 

口 图 像 分 割 ( image segmentation )。 给 定 一 张 图 像 ， 在 特定 物体 上 夯 一 个 像素 级 的 掩 模 ( mask )。 

















4.1.2 无 监督 学 习 


无 监督 学 习 是 指 在 没有 目标 的 情况 下 寻找 输入 数据 的 有 趣 变换 ， 其 目的 在 于 数据 可 视 化 、 
数据 压缩 、 数 据 去 品 或 更 好 地 理解 数据 中 的 相关 性 。 无 监督 学 习 是 数据 分 析 的 必 备 技能 ， 在 解 
诀 监 督学 习 问 题 之 前 ， 为 了 更 好 地 了 解数 据 集 ， 它 通常 是 一 个 必要 步骤 。 降 维 (dimensionality 
reduction ) 和 聚 类 ( clustering ) 都 是 众所周知 的 无 监督 学 习 方 法 。 














4.1.3 自 监 督学 习 


自 监 督学 习 是 监督 学 习 的 一 个 特例 ， 它 与 众 不 同 ， 值 得 单独 归 为 一 类 。 自 监督 学 习 是 没有 
人 工 标注 的 标签 的 监督 学 习 ， 你 可 以 将 它 看 作 没 有 人 类 参与 的 监督 学 习 。 标 签 仍然 存在 〈 因为 
总 要 有 什么 东西 来 监督 学 习 过 程 )， 但 它们 是 从 输入 数据 中 生成 的 ， 通 常 是 使 用 启发 式 算法 生 
成 的 。 

举 个 例子 ， 自 编码 器 (autoencoder ) 是 有 名 的 自 监督 学 习 的 例子 ， 其 生成 的 目标 就 是 未 经 
修改 的 输入 。 同 样 ,给 定 视 频 中 过 去 的 帧 来 预测 下 一 帧 ,或 者 给 定 文本 中 前 面 的 词 来 预测 下 一 个 词 ， 
都 是 自 监督 学 习 的 例子 [ 这 两 个 例子 也 属于 时 序 监督 学 习 (temporally supervised learning )， 即 用 
未 来 的 输入 数据 作为 监督 |。 注意, 监督 学 习 、 自 监督 学 习 和 无 监督 学 习 之 间 的 区 别 有 时 很 模糊 ， 
这 三 个 类 别 更 像 是 没有 明确 界限 的 连续 体 。 自 监督 学 习 可 以 被 重新 解释 为 监督 学 习 或 无 监督 学 
习 ， 这 取决 于 你 关注 的 是 学 习 机 制 还 是 应 用 场景 。 


注意 本 书 的 重点 在 于 监督 学 习 ， 因 为 它 是 当前 深度 学 习 的 主要 形式 ， 行 业 应 用 非常 广泛 。 后 
续 章节 也 会 简要 介绍 自 监督 学 习 。 


















































4.1.4 强化 学 习 


强化 学 习 一 直 以 来 被 人 们 所 忽视 , 但 最 近 随 着 Google 的 DeepMind 公司 将 其 成 功 应 用 于 学 
习 玩 Atari 游戏 ( 以 及 后 来 学 习 下 围棋 并 达到 最 高 水 平 ), 机 器 学 习 的 这 一 分 支 开 始 受到 大 量 关 注 。 
在 强化 学 习 中 ， 智 能 体 ( agent ) 接收 有 关 其 环境 的 信息 ， 并 学 会 选择 使 某 种 奖励 最 大 化 的 行动 。 
例如 ， 神 经 网 络 会 “观察 ”视频 游戏 的 屏幕 并 输出 游戏 操作 ， 目 的 是 尽 可 能 得 高 分 ， 这 种 神经 
网 络 可 以 通过 强化 学 习 来 训练 。 
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目前 ， 强 化 学 习 主要 集中 在 研究 领域 ， 除 游戏 外 还 没有 取得 实践 上 的 重大 成 功 。 
们 期 等 强 化 学 习 未 来 能 够 实现 越 来 越 多 的 实际 应 用 : 自动 驾驶 汽 车 、 机 融 人 、 资 源 管理 
强化 学 习 的 时 代 已 经 到 来 ， 或 即将 到 来 。 





分 类 和 回归 术语 表 


但 是 , 我 
E、 教 育 等 。 








分 类 和 回归 都 包含 很 多 专业 术语 。 前 面 你 已 经 见 过 一 些 术语 ， 在 后 续 章节 会 遇 到 更 多 。 


这 些 术 语 在 机 器 学 习 领 域 都 有 确切 的 定义 ， 你 应 该 了 解 这 些 定义 。 

口 样本 (sample ) 或 输入 (input ) : 进入 模型 的 数据 点 。 

口 预测 ( prediction ) 或 输出 ( output ) : 从 模型 出 来 的 结果 。 

口 目标 (target ) : 真实 值 。 对 于 外 部 数据 源 ， 理 想 情况 下 ， 模 型 应 该 能 够 预测 
口 预测 误差 ( prediction error ) 或 损失 值 (1oss value ) : 模型 预测 与 目标 之 间 的 


和 “ 猫 ” 就 是 两 个 类 别 。 


包含 类 别 “ 狗 "， 那 么 “ 狗 ” 就 是 1234 号 图 像 的 标签 。 


斥 的 类 别 中 。 


以 上 的 类 别 中 ， 比 如 手写 数字 分 类 。 





出 目标 。 
距离 。 


口 类 别 (class ) : 分 类 问题 中 供 选 择 的 一 组 标签 。 例 如 ， 对 猫 狗 图 像 进 行 分 类 时 ,，“ 狗 ” 
口 标签 (label ) : 分 类 问题 中 类 别 标 注 的 具体 例子 。 比 如 ， 如 果 1234 号 图 像 被 标注 为 


口 真 值 ( ground-truth ) 或 标注 (annotation ) : 数据 集 的 所 有 目标 ， 通 常 由 人 工 收集 。 
口 二 分 类 (binary classification ) : 一 种 分 类 任务 ， 每 个 输入 样本 都 应 被 划分 到 两 个 互 


口 多 分 类 ( multiclass classification ) : 一 种 分 类 任务 ， 每 个 输入 样本 都 应 被 划分 到 两 个 


口 多 标签 分 类 (multilabel classification ) : 一 种 分 类 任务 ， 每 个 输入 样本 都 可 以 分 配 多 


个 标签 。 举 个 例子 ， 如 果 一 幅 图 像 里 可 能 既 有 猫 又 有 狗 ， 那 么 应 该 同时 标注 “ 猫 ” 


标签 和 “ 狗 ” 标 签 。 每 幅 图 像 的 标签 个 数 通 常 是 可 变 的 。 


例子 ， 不 同 的 目标 价格 形成 一 个 连续 的 空间 。 


果 对 多 个 值 ( 比如 图 像 边界 框 的 坐标 ) 进行 回归 ， 那 就 是 向 量 回归 。 





口 标量 回归 ( scalar regression ) : 目标 是 连续 标量 值 的 任务 。 预 测 房价 就 是 一 个 很 好 的 
口 向 量 回 归 (vector regression ) : 目标 是 一 组 连续 值 ( 比如 一 个 连续 向 量 ) 的 任务 。 如 


口 小 批量 (mini-batch ) 或 批量 (batch ) : 模型 同时 处 理 的 一 小 部 分 样本 ( 样本 数 通常 


为 8~128 )。 样 本 数 通常 取 2 的 圭 ， 这 样 便 于 GPU 上 的 内 存 分 配 。 训 练 时 ， 小 批量 


用 来 为 模型 权重 计算 一 次 梯度 下 降 更 新 。 


4.2 评估 机 器 学 习 模型 











在 第 3 曹 介绍 的 三 个 例子 中 ， 我 们 将 数据 划分 为 训练 集 、 验 证 集 和 测试 集 。 我 们 没有 在 训 
练 模型 的 相同 数据 上 对 模型 进行 评 佑 ， 其 原因 很 快 显而易见 : 仅仅 几 轮 过 后 ， 三 个 模型 都 开始 

















4.2 评估 机 器 学 习 模 型 77 








过 拟 合 。 也 就 是 说 ， 随 着 训练 的 进行 ， 模 型 在 训练 数据 上 的 性 能 始终 在 提高 ， 但 在 前 所 未 见 的 
数据 上 的 性 能 则 不 再 变化 或 者 开始 下 降 。 

机 器 学 习 的 目的 是 得 到 可 以 泛 化 〈generalize ) 的 模型 ， 即 在 前 所 未 见 的 数据 上 表现 很 好 的 
模型 ， 而 过 拟 合 则 是 核心 难点 。 你 只 能 控制 可 以 观察 的 事情 ， 所 以 能 够 可 靠 地 衡量 模型 的 泛 化 
能 力 非常 重要 。 后 面 几 节 将 介绍 降低 过 拟 合 以 及 将 泛 化 能 力 最 大 化 的 方法 。 本 节 重 点 介绍 如 何 
衡量 泛 化 能 力 ， 即 如 何 评 佑 机 需 学 习 模 型 。 


4.2.1 训练 集 、 验 证 集 和 测试 集 


评估 模型 的 重点 是 将 数据 划分 为 三 个 集合 : 训练 集 、 验 证 集 和 测试 集 。 在 训练 数据 上 训练 
模型 ， 在 验证 数据 上 评 佑 模型。 一 旦 找到 了 最 佳 参数 ， 就 在 测试 数据 上 最 后 测试 一 次 。 

你 可 能 会 问 ， 为 什么 不 是 两 个 集合 : 一 个 训练 集 和 一 个 测试 集 ? 在 训练 集 上 训练 模型 ， 然 
后 在 测试 集 上 评估 模型 。 这 样 简 单 得 多 ! 

原因 在 于 开发 模型 时 总 是 需要 调节 模型 配置 ， 比 如 选择 层 数 或 每 层 大 小 [这 叫 作 模型 的 超 
参数 (hyperparameter )， 以 便 与 模型 参数 ( 即 权 重 ) 区 分 开 ]。 这 个 调节 过 程 需要 使 用 模型 在 验 
证 数据 上 的 性 能 作为 反馈 信号 。 这 个 调节 过 程 本 质 上 就 是 一 种 学 习 : 在 某 个 参数 空间 中 寻找 良 
好 的 模型 配置 。 因 此 ， 如 果 基 于 模型 在 验证 集 上 的 性 能 来 调节 模型 配置 ， 会 很 快 导致 模型 在 验 
证 集 上 过 拟 合 ， 即 使 你 并 没有 在 验证 集 上 直接 训练 模型 也 会 如 此 。 

造成 这 一 现象 的 关键 在 于 信息 泄露 ( information leak )。 每 次 基于 模型 在 验证 集 上 的 性 能 3 
调节 模型 超 参 数 ， 都 会 有 一 些 关 于 验证 数据 的 信息 泄露 到 模型 中 。 如 果 对 每 个 参数 只 调节 一 次 ， 
那么 泄露 的 信息 很 少 ， 验 证 集 仍然 可 以 可 靠 地 评估 模型 。 但 如 果 你 多 次 重复 这 一 过 程 (运行 一 
次 实验 ， 在 验证 集 上 评 佑 ， 然 后 据 此 修改 模型 )， 那 么 将 会 有 越 来 越 多 的 关于 验证 集 的 信息 泄露 
到 模型 中 。 

最 后 ， 你 得 到 的 模型 在 验证 集 上 的 性 能 非常 好 ( 人 为 造成 的 )， 因 为 这 正 是 你 优化 的 目的 。 
你 关心 的 是 模型 在 全 新 数据 上 的 性 能 ， 而 不 是 在 验证 数据 上 的 性 能 ， 因 此 你 需要 使 用 一 个 完全 
不 同 的 、 前 所 未 见 的 数据 集 来 评估 模型 ， 它 就 是 测试 集 。 你 的 模型 一 定 不 能 读 取 与 测试 集 有 关 
的 任何 信息 ， 既 使 间接 读 取 也 不 行 。 如 果 基 于 测试 集 性 能 来 调节 模型 ,那么 对 泛 化 能 力 的 衡量 
是 不 准确 的 。 

将 数据 划分 为 训练 集 、 验 证 集 和 测试 集 可 能 看 起 来 很 简单 ， 但 如 果 可 用 数据 很 少 ， 还 有 几 
种 高 级 方法 可 以 派 上 用 场 。 我 们 先 来 介绍 三 种 经 典 的 评 佑 方法: 简单 的 留 出 验证 、K 折 验证 ， 
以 及 带 有 打 乱 数据 的 重复 玉 折 验证 。 


1. 简单 的 留 出 验证 

留 出 一 定 比 例 的 数据 作为 测试 集 。 在 剩余 的 数据 上 训练 模型 ， 然 后 在 测试 集 上 评估 模型 。 
如 前 所 述 ， 为 了 防止 信息 泄露 ， 你 不 能 基于 测试 集 来 调节 模型 ， 所 以 还 应 该 保留 一 个 验证 集 。 

留 出 验证 (hold-out validation ) 的 示意 图 见 图 4-1。 代 码 清单 4-1 给 出 了 其 简单 实现 。 
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图 4-1 简单 的 留 出 验证 数据 划分 


代码 清单 4-1 留 出 验证 


num validation samples = 10000 





np.random.shuffle(data) < 一 通常 需要 打 乱 数据 


validation data = data[:num validation samples] < 一 定义 验证 集 
data = datal[lnum validation samples:] 


training_data = data[:] < 一 定义 训练 集 

| 在 训练 数据 上 训练 模型 ， 
model .train(training_dqatal) -各 全 卉 弄 | 
validation score = model.evaluate(validation data) 并 在 验证 数据 上 评估 模型 
# 现在 你 可 以 调节 模型 、 重 新 训练 、 评 估 ， 然 后 再 次 调节 ……: 

model = get_model () 一 旦 调节 好 超 参数 ， 通 常 就 在 


model.train (np.concatenate([training data, 


valigation_datal)) | 所 有 非 测试 数据 上 从 头 开始 训 
test_score = model.evaluate (test_dqdata) 练 最 终 模型 


这 是 最 简单 的 评估 方法 ， 但 有 一 个 缺点 : 如 果 可 用 的 数据 很 少 ， 那 么 可 能 验证 集 和 测试 集 
包含 的 样本 就 太 少 ， 从 而 无 法 在 统计 学 上 代表 数据 。 这 个 问题 很 容易 发 现 : 如 果 在 划分 数据 前 
进行 不 同 的 随机 打 乱 ， 最 终 得 到 的 模型 性 能 差别 很 大 ， 那 么 就 存在 这 个 问题 。 接 下 来 会 介绍 天 折 
验证 与 重复 的 玉 折 验证 ， 它 们 是 解决 这 一 问题 的 两 种 方法 。 





2.K 折 验证 

玉 折 验证 (K-fold validation ) 将 数据 划分 为 大 小 相同 的 KK 个 分 区 。 对 于 每 个 分 区 ， 在 剩 
余 的 Kl 个 分 区 上 训练 模型 ， 然 后 在 分 区 i 上 评估 模型 。 最 终 分 数 等 于 天 个 分 数 的 平均 值 。 对 
于 不 同 的 训练 集 - 测试 集 划分 ， 如 果 模 型 性 能 的 变化 很 大 ， 那 么 这 种 方法 很 有 用 。 与 留 出 验证 
一 样 ， 这 种 方法 也 需要 独立 的 验证 集 进 行 模型 校正 。 

玉 折 交叉 验证 的 示意 图 见 图 4-2。 代 码 清单 4-2 给 出 了 其 简单 实现 。 
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将 数据 划分 为 3 个 分 区 
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图 4-2 3 折 验 证 


代码 清单 4-2 ” 玉 折 交叉 验证 





长 三 玫 
num validation samples = len(data) // k 


np.random.shuffle(data) 





validation_scores = [] 

for fold in range(k): 
validation data = datal[lnum validation samples * fold: | 选择 验证 数据 分 区 
num validation_ samples * (fold + 1)] 
training data = data[l:num validation samples * fold] + 


datal[lnum validation samples * (fold + 1):] 
使 用 剩余 数据 作为 训练 数据 。 注 意 ， 
+ 运算 符 是 列表 合并 ， 不 是 求 和 





model = get_model () + 
model.train (training_ data) 
Validation seore = model. evaluate (validation_ data) 创建 一 个 全 新 的 模型 
validation_ scores.append(validation score) A 

实例 (未 训练 ) 


validation score = np.average (validation_ scores) 、 
最 终 验 证 分 数 : K 折 验证 
model = get_model1() 在 所 有 非 测试 数据 分 数 的 平均 值 


model .train(dqata) 入 
时 级 中 
test_score = model.evaluate(test_data) 上 训练 最 终 模 型 





3. 带 有 打 乱 数据 的 重复 K 折 验 证 

如 果 可 用 的 数据 相对 较 少 ， 而 你 又 需要 尽 可 能 精确 地 评估 模型 ， 那 么 可 以 选择 带 有 打 乱 数 
据 的 重复 玉 折 验证 (iterated K-fold validation with shuffling )。 我 发 现 这 种 方法 在 Kaggle 竞赛 中 
寺 别 有 用 。 具 体 做 法 是 多 次 使 用 KK 折 验 证 , 在 每 次 将 数据 划分 为 K 个 分 区 之 前 都 先 将 数据 打 乱 。 
最 终 分 数 是 每 次 K 折 验证 分 数 的 平均 值 。 注 意 ， 这 种 方法 一 共 要 训练 和 评估 PxK 个 模型 (P 
是 重复 次 数 )， 计 算 代价 很 大 。 


80 第 4 章 机 器 学 习 基 础 





4.2.2 ”评估 模型 的 注意 事项 


选择 模型 评估 方法 时 ， 需 要 注意 以 下 几 点 。 

口 数据 代表 性 〈data representativeness )。 你 希望 训练 集 和 测试 集 都 能 够 代表 当前 数据 。 例 
如 ， 你 想 要 对 数字 图 像 进行 分 类 ， 而 图 像样 本 是 按 类 别 排序 的 ， 如 果 你 将 前 80% 作为 训 
练 集 ， 剩 余 20% 作为 测试 集 ， 那 么 会 导致 训练 集中 只 包含 类 别 0~7， 而 测试 集中 只 包含 
类 别 8~9。 这 个 错误 看 起 来 很 可 笑 ， 却 很 常见 。 因 此 ， 在 将 数据 划分 为 训练 集 和 测试 集 
之 前 ， 通常 应 该 随机 打 乱 数据 。 

口 时 间 稍 头 〈the arrow of time )。 如 果 想 要 根据 过 去 预测 未 来 ( 比如 明天 的 天 气 、 股 票 走势 
等 )， 那 么 在 划分 数据 前 你 不 应 该 随机 打 乱 数据 ， 因 为 这 么 做 会 造成 时 间 泄 露 ( temporal 
leak ) : 你 的 模型 将 在 未 来 数据 上 得 到 有 效 训练 。 在 这 种 情况 下 ， 你 应 该 始终 确保 测试 集 
中 所 有 数据 的 时 间 都 晚 于 训练 集 数 据 。 

口 数据 元 余 〈redundancy in your data )。 如 果 数 据 中 的 某 些 数据 点 出 现 了 两 次 ( 这 在 现实 中 
的 数据 里 十 分 常见 )， 那 么 打 乱 数据 并 划分 成 训练 集 和 验证 集会 导致 训练 集 和 验证 集 之 
间 的 数据 元 余 。 从 效果 上 来 看 ， 你 是 在 部 分 训练 数据 上 评估 模型 ， 这 是 极其 精 糕 的 ! 一 
定 要 确保 训练 集 和 验证 集 之 间 没 有 交集 。 


4.3 数据 预 处 理 、 特 征 工程 和 特征 学 习 


除 模 型 评估 之 外 ， 在 深入 研究 模型 开发 之 前 ， 我 们 还 必须 解决 男 一 个 重要 问题 ， 将 数据 输 
入 神经 网 络 之 前 ， 如 何 准备 输入 数据 和 目标 ?许多 数据 预 处 理 方法 和 特征 工程 技术 都 是 和 特定 
领域 相关 的 ( 比如 只 和 文本 数据 或 图 像 数 据 相关 )， 我 们 将 在 后 续 音节 的 实例 中 介绍 这 些 内 容 。 
现在 我 们 要 介绍 所 有 数据 领域 通用 的 基本 方法 。 


4.3.1 神经 网 络 的 数据 预 处 理 


数据 预 处 理 的 目的 是 使 原始 数据 更 适 于 用 神经 网 络 处 理 ， 包 括 向 量化 、 标 准 化 、 处 理 缺 失 
值 和 特征 提取 。 


1. 向 量化 

神经 网 络 的 所 有 输入 和 目标 都 必须 是 浮 点 数 张 量 ( 在 特定 情况 下 可 以 是 整数 张 量 )。 无论 
人 处理 什么 数据 ( 声音、 图 像 还 是 文本 )， 都 必须 首先 将 其 转换 为 张 量 ， 这 一 步 叫 作 数据 向 量化 
( data vectorization )。 例 如 ， 在 前 面 两 个 文本 分 类 的 例子 中 ， 开 始 时 文本 都 表示 为 整数 列表 ( 代 
表单 词 序列 )， 然 后 我 们 用 one-hot 编码 将 其 转换 为 float32 格式 的 张 量 。 在 手写 数字 分 类 和 预 
测 房 价 的 例子 中 ， 数 据 已 经 是 向 量 形式 ， 所 以 可 以 跳 过 这 一 步 。 


2. 值 标准 化 
在 手写 数字 分 类 的 例子 中 ， 开 始 时 图 像 数 据 被 编码 为 0~255 范围 内 的 整数 ， 表 示 灰 度 值 。 
将 这 一 数据 输入 网 络 之 前 ， 你 需要 将 其 转换 为 float32 格式 并 除 以 255， 这样 就 得 到 0~1 范围 
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内 的 浮 点 数 。 同 样 , 预测 房价 时 , 开始 时 特征 有 各 种 不 同 的 取 值 范围 , 有 些 特征 是 较 小 的 浮 点 数 ， 
有 些 特征 是 相对 较 大 的 整数 。 将 这 一 数据 输入 网 络 之 前 ， 你 需要 对 每 个 特征 分 别 做 标准 化 ， 使 
其 均值 为 0、 标 准 差 为 1。 

一 般 来 说 ， 将 取 值 相对 较 大 的 数据 ( 比如 多 位 整数 ， 比 网 络 权 重 的 初始 值 大 很 多 ) 或 异 质 
数据 ( heterogeneous data， 比 如 数据 的 一 个 特征 在 0~1 范围 内 ， 男 一 个 特征 在 100~200 范围 内 ) 
输入 到 神经 网 络 中 是 不 安全 的 。 这 人 么 做 可 能 导致 较 大 的 梯度 更 新 ， 进 而 导致 网 络 无 法 收敛 。 为 
了 让 网 络 的 学 习 变 得 更 容易 ， 输 入 数据 应 该 具有 以 下 特征 。 

口 取 值 较 小 : 大 部 分 值 都 应 该 在 0~1 范围 内 。 
口 同 质 性 (homogenous ) : 所 有 特征 的 取 值 都 应 该 在 大 致 相同 的 范围 内 。 

此 外 , 下面 这 种 更 严格 的 标准 化 方法 也 很 常见 , 而 且 很 有 用 , 虽然 不 一 定 总 是 必需 的 ( 例如 ， 
对 于 数字 分 类 问题 就 不 需要 这 么 做 )。 

口 将 每 个 特征 分 别 标准 化 ， 使 其 平均 值 为 0。 
口 将 每 个 特征 分 别 标准 化 ， 使 其 标准 差 为 1。 
这 对 于 Numpy 数组 很 容易 实现 。 


X -= Xx.mean (axis=0) SN 
X /= x.std(axis=0) 仿 训 和 十 一 小 形 居 洒 (Samples; 
features) 的 二 维和 矩阵 


















































3. 处 理 缺 失 值 

你 的 数据 中 有 时 可 能 会 有 缺失 值 。 例 如 在 房价 的 例子 中 ， 第 一 个 特征 〈 数 据 中 索引 编号 为 
0 的 列 ) 是 人 均 犯罪 率 。 如 果 不 是 所 有 样本 都 具有 这 个 特征 的 话 ， 怎 么 办 ?那样 你 的 训练 数据 
或 测试 数据 将 会 有 缺失 值 。 

一 般 来 说 ， 对 于 神经 网 络 ， 将 缺失 值 设置 为 0 是 安全 的 ， 只 要 0 不 是 一 个 有 意义 的 值 。 网 
络 能 够 从 数据 中 学 到 0 意味 着 缺失 数据 ， 并 且 会 忽略 这 个 值 。 

注意 ， 如 果 测 试 数据 中 可 能 有 缺失 值 ， 而 网 络 是 在 没有 缺失 值 的 数据 上 训练 的 ， 那 么 网 络 
不 可 能 学 会 忽略 缺失 值 。 在 这 种 情况 下 ， 你 应 该 人 为 生成 一 些 有 缺失 项 的 训练 样本 : 多 次 复制 
一 些 训练 样本 ， 然 后 删除 测试 数据 中 可 能 缺失 的 茶 些 特征 。 









































4.3.2 ”特征 工程 


特征 工程 ( feature engineering ) 是 指 将 数据 输入 模型 之 前 ， 利 用 你 自己 关于 数据 和 机 器 学 
习 算 法 ( 这 里 指 神经 网 络 ) 的 知识 对 数据 进行 硬 编码 的 变换 ( 不 是 模型 学 到 的 )， 以 改善 模型 的 
效果 。 多 数 情况 下 ， 一 个 机 器 学 习 模 型 无 法 从 完全 任意 的 数据 中 进行 学 习 。 呈 现 给 模型 的 数据 
应 该 便于 模型 进行 学 习 。 

我 们 来 看 一 个 直观 的 例子 。 假 设 你 想 开 发 一 个 模型 ， 输 入 一 个 时 钟 图 像 ， 模 型 能 够 输出 对 
应 的 时 间 ( 见 图 4-3 )。 















































NI RO Hg, 
民 SE | 和 气 
原始 数据 : 三 三 三 三 
像素 网 格 多 S 乞 SS 
Wp Ww 
比较 好 的 特征 : {x1l; 0.7， {x1: 0.0， 
时 钟 指针 的 坐标 ”yl: 0.7} yl: 1.0} 
{fn {X23 =0.38, 
Va: OO Vos .0532 
更 好 的 特征 : thetal: 45 thetal: 90 
时 钟 指针 的 角度 theta2: 0 theta2: 140 














图 4-3 从 钟表 上 读 取 时 间 的 特征 工程 


如 果 你 选择 用 图 像 的 原始 像素 作为 输入 数据 ， 那 么 这 个 机 需 学 习 问题 将 非常 困难 。 你 需要 
用 卷 积 神经 网 络 来 解决 这 个 问题 ， 而 且 还 需要 花费 大 量 的 计算 资源 来 训练 网 络 。 








但 如 果 你 从 更 高 的 层次 理解 了 这 个 问题 ( 你 知道 人 们 怎么 看 时 钟 上 的 时 间 )， 那 么 可 以 为 机 


























需 学 习 算 法 找到 更 好 的 输入 特征 ， 比 如 你 可 以 编写 5 行 Python 脚本 ， 找 到 时 钟 指针 对 应 的 黑色 
一 个 简单 的 机 融 学 习 算法 就 可 以 学 会 这 





像素 并 输出 每 个 指针 尖 的 (x, y) 坐标 ， 这 很 简单 。 然 后 ， 


些 坐 标 与 时 间 的 对 应 关系 。 





你 还 可 以 进一步 思考 : 进行 坐标 变换 ， 将 (x, y) 坐标 转换 为 相对 于 图 像 中 心 的 极 坐标 。 这 样 
输入 就 变 成 了 每 个 时 钟 指针 的 角度 sheta。 现 在 的 特征 使 问题 变 得 非常 简单 ， 根 本 不 需要 机 器 
学 习 ， 因 为 简单 的 舍 人 运算 和 字典 查找 就 足以 给 出 大 致 的 时 间 。 





这 就 是 特征 工程 的 本 质 : 用 更 简单 的 方式 表述 问题 ， 从 而 使 问题 








深入 理解 问题 。 





深度 学 习 出 现 之 前 ， 特 征 工 程 曾经 非常 重要 ， 因 为 





在 MNIST 数字 分 类 问题 上 取得 成 功 之 前 ， 其 解决 方法 通常 是 基于 硬 编 码 的 特征 
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得 更 容易 。 它 通常 需要 


经 典 的 浅 层 算法 没有 足够 大 的 假设 空间 
来 自己 学 习 有 用 的 表示 。 将 数据 呈现 给 算法 的 方式 对 解决 问题 至 关 重 要 。 例 如 ， 卷 积 神经 网 络 


中 的 圆圈 个 数 、 图 像 中 每 个 数字 的 高 度 、 像 素 值 的 直方 图 等 。 





幸运 的 是 ， 对 于 现代 深度 学 习 ， 大 部 分 特 生 
数据 中 自动 提取 有 用 的 特征 。 这 是 否 意 味 着 , 只 要 使 月 





























并 不 是 这 样 ， 原 因 有 两 点 。 





读 取 钟 面 上 的 时 间 是 非常 可 笑 的 。 

















口 良好 的 特征 仍然 可 以 让 你 用 更 少 的 资源 更 优 











口 良好 的 特征 可 以 让 你 用 更 少 的 数据 解决 问题 。 
大 量 的 训练 数据 。 如 果 只 有 很 少 的 样本 ， 那 么 特 生 


作 地 解决 问题 。 





比如 数字 图 像 





F 工 程 都 是 不 需要 的 ， 因 为 神经 网 络 能 够 从 原始 
深度 神经 网 络 ， 就 无 须 担心 特征 工程 呢 ? 





例如 ， 使 用 卷 积 神经 网 络 来 





深度 学 习 模型 自主 学 习 特 征 的 能 力 依赖 于 
F 的 信息 价值 就 变 得 非常 重要 。 
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4.4 ”过 拟 合 与 欠 拟 合 


在 上 一 童 的 三 个 例子 (预测 电影 评论 、 主 题 分 类 和 房价 回归 ) 中 ， 模 型 在 留 出 验证 数据 上 
的 性 能 总 是 在 几 轮 后 达到 最 高 点 ， 然 后 开始 下 降 。 也 就 是 说 ， 模 型 很 快 就 在 训练 数据 上 开始 过 
拟 合 。 过 拟 合 存在 于 所 有 机 器 学 习 问 题 中 。 学 会 如 何 处 理 过 拟 合 对 掌握 机 器 学 习 至 关 重 要 。 

机 需 学 习 的 根本 问题 是 优化 和 谤 化 之 间 的 对 立 。 优 化 〈optimization ) 是 指 调节 模型 以 在 训 
练 数据 上 得 到 最 佳 性 能 ( 即 机 器 学 习 中 的 学 习 )， 而 泛 化 ( generalization ) 是 指 训练 好 的 模型 在 
前 所 未 见 的 数据 上 的 性 能 好 坏 。 机 融 学 习 的 目的 当然 是 得 到 良好 的 泛 化 ， 但 你 无 法 控制 泛 化 ， 
只 能 基于 训练 数据 调节 模型 。 

训练 开始 时 ， 优 化 和 谤 化 是 相关 的 : 训练 数据 上 的 损失 越 小 ,测试 数据 上 的 损失 也 越 小 。 
这 时 的 模型 是 欠 拟 合 (underfit ) 的 ， 即 仍 有 改进 的 空间 ， 网 络 还 没有 对 训练 数据 中 所 有 相关 模 
式 建 模 。 但 在 训练 数据 上 迭代 一 定 次 数 之 后 , 泛 化 不 再 提高 , 验证 指标 先是 不 变 , 然后 开始 变 差 ， 
即 模型 开始 过 拟 合 。 这 时 模型 开始 学 习 仅 和 训练 数据 有 关 的 模式 ， 但 这 种 模式 对 新 数据 来 说 是 
错误 的 或 无 关 紧 要 的 。 

为 了 防止 模型 从 训练 数据 中 学 到 错误 或 无 关 紧 要 的 模式 ， 最 优 解决 方法 是 获取 更 多 的 训练 
数据 。 模 型 的 训练 数据 越 多 ， 泛 化 能 力 自 然 也 越 好 。 如 果 无 法 获取 更 多 数据 ， 次 优 解决 方法 是 
调节 模型 允许 存储 的 信息 量 ， 或 对 模型 允许 存储 的 信息 加 以 约束 。 如 果 一 个 网 络 只 能 记 住 几 个 
模式 ， 那 么 优化 过 程 会 迫使 模型 集中 学 习 最 重要 的 模式 ， 这 样 更 可 能 得 到 良好 的 泛 化 。 

这 种 降低 过 拟 合 的 方法 叫 作 正则 化 ( regularization )。 我 们 先 介 绍 几 种 最 常见 的 正则 化 方法 ， 
然后 将 其 应 用 于 实践 中 ， 以 改进 3.4 节 的 电影 分 类 模型 。 


4.4.1 减 小 网 络 大 小 


防止 过 拟 合 的 最 简单 的 方法 就 是 减 小 模型 大 小 ， 即 减少 模型 中 可 学 习 参 数 的 个 数 ( 这 由 层 
数 和 每 层 的 单元 个 数 决定 )。 在 深度 学 习 中 ， 模 型 中 可 学 习 参 数 的 个 数 通 常 被 称 为 模型 的 容量 
( capacity )。 直 观 上 来 看 ， 参 数 更 多 的 模型 拥有 更 大 的 记忆 容量 ( memorization capacity )， 因 此 能 
够 在 训练 样本 和 目标 之 间 轻 松 地 学 会 完美 的 字典 式 映射 ， 这 种 映射 没有 任何 泛 化 能 力 。 例 如 ， 拥 
有 500 000 个 二 进 制 参数 的 模型 ， 能 够 轻松 学 会 MNIST 训练 集中 所 有 数字 对 应 的 类 别 一 一 我 们 
只 需 让 50 000 个 数字 每 个 都 对 应 10 个 二 进 制 参数 。 但 这 种 模型 对 于 新 数字 样本 的 分 类 毫 无 用 处 。 
始终 牢记 :深度 学 习 模 型 通常 都 很 擅长 拟 合 训练 数据 ， 但 真正 的 挑战 在 于 泛 化 ， 而 不 是 拟 合 。 

与 此 相反 , 如 果 网 络 的 记忆 资源 有 限 , 则 无 法 轻松 学 会 这 种 映射 。 因 此 , 为 了 让 损失 最 小 化 ， 
网 络 必须 学 会 对 目标 具有 很 强 预测 能 力 的 压缩 表示 ， 这 也 正 是 我 们 感 兴趣 的 数据 表示 。 同 时 请 
记 住 ， 你 使 用 的 模型 应 该 具有 足够 多 的 参数 ， 以 防 欠 拟 合 ， 即 模型 应 避免 记忆 资源 不 足 。 在 容 
量 过 大 与 容量 不 足 之 间 要 找到 一 个 折 中 。 

不 幸 的 是 ， 没 有 一 个 魔法 公式 能 够 确定 最 佳 层 数 或 每 层 的 最 佳 大 小 。 你 必须 评估 一 系列 不 
同 的 网 络 架 构 ( 当然 是 在 验证 集 上 评估 ,而 不 是 在 测试 集 上 ), 以 便 为 数据 找到 最 佳 的 模型 大 小 。 
要 找到 合适 的 模型 大 小 ， 一 般 的 工作 流程 是 开始 时 选择 相对 较 少 的 层 和 人 参数， 然后 逐渐 增加 层 
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的 大 小 或 增加 新 层 ， 直 到 这 种 增加 对 验证 损失 的 影响 变 得 很 小 。 
我 们 在 电影 评论 分 类 的 网 络 上 试 一 下 。 原 始 网 络 如 下 所 示 。 


代码 清单 4-3 ”原始 模型 
from keras import models 
from keras import layers 


model = models.Sequential () 

model.add (layers.Dense(16, activation='relu', input_shape=(10000,))) 
model.add (layers.Dense(16, activation='relu')) 

model.add (layers.Dense(1, activation='sigmoid')) 


现在 我 们 尝试 用 下 面 这 个 更 小 的 网 络 来 蔡 换 它 。 


代码 清单 4-4 “容量 更 小 的 模型 





model = models.Sequential () 

model.add(layers.Dense(4, activation='relu', input_shape=(10000,))) 
model.add(layers.Dense(4, activation='relu')) 

model.add (layers.Dense(1, activation='sigmoid')) 


图 4-4 比较 了 原始 网 络 与 更 小 网 络 的 验证 损失 。 圆 点 是 更 小 网 络 的 验证 损失 值 ， 十 字 是 原 
始 网 络 的 验证 损失 值 (请 记 住 ， 更 小 的 验证 损失 对 应 更 好 的 模型 )。 
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图 4-4 模型 容量 对 验证 损失 的 影响 : 换 用 更 小 的 网 络 


如 你 所 见 ， 更 小 的 网 络 开 始 过 拟 合 的 时 间 要 晚 于 参考 网 络 ( 前 者 6 轮 后 开始 过 拟 合 ， 而 后 
者 4 轮 后 开始 )， 而 且 开 始 过 拟 合 之 后 ， 它 的 性 能 变 差 的 速度 也 更 慢 。 
现在 ， 为 了 好 玩 ， 我 们 再 向 这 个 基准 中 添加 一 个 容量 更 大 的 网 络 〈 容量 远大 于 问题 所 需 )。 














代码 清单 4-5 ”容量 更 大 的 模型 


model = models.Sequential () 

model.add(layers.Dense(512, activation='relu', input_shape=(10000,))) 
model.add (layers.Dense(512, activation='relu')) 

model.add (layers.Dense(1, activation='sigmoid')) 
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图 4-5 显示 了 更 大 的 网 络 与 参考 网 络 的 性 能 对 比 。 圆 点 是 更 大 网 络 的 验证 损失 值 ， 十 字 是 
原始 网 络 的 验证 损失 值 。 
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图 4-5 模型 容量 对 验证 损失 的 影响 : 换 用 更 大 的 网 络 
更 大 的 网 络 只 过 了 一 轮 就 开始 过 拟 合 ， 过 拟 合 也 更 严重 。 其 验证 损失 的 波动 也 更 大 。 
图 4-6 同时 给 出 了 这 两 个 网 络 的 训练 损失 。 如 你 所 见 , 更 大 网 络 的 训练 损失 很 快 就 接近 于 零 。 
网 络 的 容量 越 大 , 它 拟 合 训练 数据 即 得 到 很 小 的 训练 损失 ) 的 速度 就 越 快 , 但 也 更 容易 过 拟 合 
( 导致 训练 损失 和 验证 损失 有 很 大 差异 )。 
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图 4-6 模型 容量 对 训练 损失 的 影响 : 换 用 更 大 的 网 络 








4.4.2 ”添加 权重 正则 化 

你 可 能 知道 奥 卡 姆 剃刀 ( Occam’s razor ) 原理 : 如 果 一 件 事 情 有 两 种 解释 ， 那 么 最 可 能 正 
确 的 解释 就 是 最 简单 的 那个 ， 即 假设 更 少 的 那个 。 这 个 原理 也 适用 于 神经 网 络 学 到 的 模型 : 给 
定 一 些 训练 数据 和 一 种 网 络 架 构 ， 很 多 组 权重 值 ( 即 很 多 模型 ) 都 可 以 解释 这 些 数据 。 简 单 模 
型 比 复杂 模型 更 不 容易 过 拟 合 。 
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这 里 的 简单 模型 (simple model ) 是 指 参 数值 分 布 的 炉 更 小 的 模型 ( 或 参数 更 少 的 模型 ， 比 

如 上 一 节 的 例子 )。 因 此 ， 一 种 常见 的 降低 过 拟 合 的 方法 就 是 强制 让 模型 权重 只 能 取 较 小 的 值 ， 

从 而 限制 模型 的 复杂 度 ， 这 使 得 权重 值 的 分 布 更 加 规则 (regular )。 这 种 方法 叫 作 权重 正则 化 

( weight regularization )， 其 实现 方法 是 向 网 络 损失 函数 中 添加 与 较 大 权重 值 相关 的 成 本 (cost )。 

这 个 成 本 有 两 种 形式 。 

口 L1 正则 化 (LI1regularization ): 添 加 的 成 本 与 权重 系数 的 绝对 值 [ 权重 的 LI1 范 数 (norm )] 

成 正比 。 

口 L2 正则 化 ( L2 regularization ): 添加 的 成 本 与 权重 系数 的 平方 ( 权重 的 L2 范 数 ) 成 正比 。 
神经 网 络 的 L2 正则 化 也 叫 权重 衰减 (weight decay )。 不 要 被 不 同 的 名 称 搞 混 ， 权 重 衰减 
与 L2 正则 化 在 数学 上 是 完全 相同 的 。 

在 Keras 中 ， 添 加 权重 正则 化 的 方法 是 向 层 传递 权重 正则 化 项 实例 (weight regularizer 
instance ) 作为 关键 字 参 数 。 下 列 代码 将 向 电影 评论 分 类 网 络 中 添加 L2 权重 正则 化 。 











代码 清单 4-6 ”向 模型 添加 L2 权重 正则 化 


from keras import regularizers 





model = models.Sequential () 

model.add (layers.Dense(16, kernel regularizer=regularizers.12(0.001), 
activation='relu', input_shape=(10000,))) 

model.add (layers.Dense(16, kernel regularizer=regularizers.12(0.001), 
activation='relu')) 

model.add (layers.Dense(1, activation='sigmoid')) 


12 (0.001) 的 意思 是 该 层 权 重 和 矩阵 的 每 个 系数 都 会 使 网 络 总 损失 增加 0.001 * weight_ 
coefficient_value。 注 意 ， 由 于 这 个 惩罚 项 只 在 训练 时 添加 ， 所 以 这 个 网 络 的 训练 损失 会 
比 测试 损失 大 很 多 。 

图 4-7 显示 了 1L2 正则 化 惩罚 的 影响 。 如 你 所 见 ， 即 使 两 个 模型 的 参数 个 数 相同 ， 具 有 L2 
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4-7 L2 权重 正则 化 对 验证 损失 的 影响 
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你 还 可 以 用 Keras 中 以 下 这 些 权重 正则 化 项 来 代替 L2 正则 化 。 





代码 清单 4-7 Keras 中 不 同 的 权重 正则 化 项 


from keras import regularizers 


regularizers.11(0.001) ”< 一 |L1 正则 化 


regularizers.11_12(11=0.001，12=0.001) < 一 同时 做 L1 和 LL2 正则 化 


4.4.3 添加 dropout 正则 化 


dropout 是 神经 网 络 最 有 效 也 最 常用 的 正则 化 方法 之 一 ， 它 是 由 多 伦 多 大 学 的 Geoffrey Hinton 
和 他 的 学 生 开发 的 。 对 某 一 层 使 用 dropout， 就 是 在 训练 过 程 中 随机 将 该 层 的 一 些 输出 特征 合 
弃 (设置 为 0)。 假设 在 训练 过 程 中 ， 茶 一 层 对 给 定 输入 样本 的 返回 值 应 该 是 向 量 [0.2， 0.5， 
1.3，0.8，1.1]。 使 用 dropout 后 ， 这 个 向 量 会 有 几 个 随机 的 元 素 变 成 0， 比 如 [0，0.5， 
1.3，0，1.1]。dropout 比率 ( dropout rate ) 是 被 设 为 0 的 特征 所 占 的 比例 ， 通 常 在 0.2~0.5 
范围 内 。 测 试 时 没有 单元 被 舍弃 ， 而 该 层 的 输出 值 需要 按 dropout 比率 缩小 ， 因 为 这 时 比 训练 时 
有 更 多 的 单元 被 激活 ， 需 要 加 以 平衡 。 

假设 有 一 个 包含 某 层 输 出 的 Numpy 矩阵 layer_output， 其 形状 为 (batch_size， 
features)。 训 练 时 ,我 们 随机 将 矩阵 中 一 部 分 值 设 为 0。 

layer_output *= np.random.randint (0, high=2, size=layer_output.shape) 

> 


训练 时 ， 舍 弃 
的 输出 单元 


测试 时 ,我 们 将 输出 按 dropout 比率 缩小 。 这 里 我 们 乘 以 0.5( 因为 前 面 舍弃 了 一 半 的 单元 )。 

layer_output *= 0.5 < 一 测试 时 

注意 ， 为 了 实现 这 一 过 程 ， 还 可 以 让 两 个 运算 都 在 训练 时 进行 ， 而 测试 时 输出 保持 不 变 。 
这 通常 也 是 实践 中 的 实现 方式 ( 见 图 4-8 )。 


layer_output *= np.random.randint (0, high=2, size=layer_output.shape) 十 一 训练 时 
layer_output /= 0.5 ”< 一 注意 ， 是 成 比例 放大 而 不 是 成 比例 缩小 
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图 4-8 训练 时 对 激活 矩阵 使 用 dropout， 并 在 训练 时 成 比例 增 大 。 测 试 时 激活 矩阵 保持 不 变 
这 一 方法 可 能 看 起 来 有 些 奇 怪 和 随意 。 它 为 什么 能 够 降低 过 拟 合 ? Hinton 说 他 的 灵感 之 一 
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来 自 于 银行 的 防 欺 诈 机 制 。 用 他 自己 的 话 来 说 :“ 我 去 银行 办 理 业 务 。 柜 员 不 停 地 换 人 ， 于 是 我 
问 其 中 一 人 这 是 为 什么 。 他 说 他 不 知道 ， 但 他 们 经 常 换 来 换 去 。 我 猜想 ， 银 行 工作 人 员 要 想 成 
功 欺 诈 银 行 ， 他 们 之 间 要 互相 合作 才 行 。 这 让 我 意识 到 ， 在 每 个 样本 中 随机 删除 不 同 的 部 分 神 
经 元 , 可 以 阻止 它们 的 阴谋 ,因此 可 以 降低 过 拟 合 。” “其 核心 思想 是 在 层 的 输出 值 中 引入 噪声 ， 
打破 不 显著 的 偶然 模式 ( Hinton 称 之 为 阴谋 )。 如 果 没 有 噪声 的 话 , 网 络 将 会 记 住 这 些 偶然 模式 。 

在 Keras 中 ,你 可 以 通过 Dropout 层 向 网 络 中 引入 dropout，dropout 将 被 应 用 于 前 面 一 层 
的 输出 。 


model.add (layers.Dropout (0.5)) 


我 们 向 IMDB 网 络 中 添加 两 个 Dropout 层 ， 来 看 一 下 它们 降低 过 拟 合 的 效果 。 





代码 清单 4-8 向 IMDB 网 络 中 添加 dropout 
model = models.Seduential() 
model.add (layers.Dense(16, activation='relu', input_shape=(10000,))) 
model.add (layers.Dropout (0.5)) 


( 
model.add (layers.Dense(16, activation='relu')) 
model.add (layers.Dropout (0.5)) 
model.add (layers.Dense(1, activation='sigmoid')) 


图 4-9 给 出 了 结果 的 图 示 。 我 们 再 次 看 到 ， 这 种 方法 的 性 能 相 比 参考 网 络 有 明显 提高 。 
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图 4-9 dropout 对 验证 损失 的 影响 


总 结 一 下 ， 防 止 神经 网 络 过 拟 合 的 常用 方法 包括 : 
口 获取 更 多 的 训练 数据 

口 减 小 网 络 容量 

口 添加 权重 正则 化 

口 添加 dropout 





GD 参见 Reddit 网 站 上 的 讨论 “AMA: We are the Google Brain team. We’d love to answer your questions about machine learning”。 
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4.5 机 器 学 习 的 通用 工作 流程 


本 方 将 介绍 一 种 可 用 于 解决 任何 机 絮 学 习 问题 的 通用 模板 。 这 一 模板 将 你 在 本 童 学 到 的 这 
些 概 念 串 在 一 起 : 问题 定义 、 评 估 、 特 征 工程 和 解决 过 拟 合 。 


4.5.1 定义 问题 ， 收 集 数 据 集 


首先 ， 你 必须 定义 所 面 对 的 问题 。 

口 你 的 输入 数据 是 什么 ”你 要 预测 什么 ”只 有 拥有 可 用 的 训练 数据 ， 你 才能 学 习 预 测 某 件 
事情 。 比 如 ， 只 有 同时 拥有 电影 评论 和 情感 标注 ， 你 才能 学 习 对 电影 评论 进行 情感 分 类 。 
因此 ， 数 据 可 用 性 通常 是 这 一 阶段 的 限制 因素 〈 除非 你 有 办 法 付 钱 让 人 帮 你 收集 数据 )。 

口 你 面 对 的 是 什么 类 型 的 问题 ? 是 二 分 类 问题 、 多 分 类 问题 标量 回归 问题 、 向 量 回归 问题 ， 
还 是 多 分 类 、 多 标签 问题 ”或 者 是 其 他 问题 ， 比 如 聚 类 、 生 成 或 强化 学 习 ? 确定 问题 类 
型 有 助 于 你 选择 模型 架构 、 损 失 函 数 等 。 

只 有 明确 了 输入 、 输 出 以 及 所 使 用 的 数据 ， 你 才能 进入 下 一 阶段 。 注 意 你 在 这 一 阶段 所 做 
的 假设 。 
口 假设 输出 是 可 以 根据 输入 进行 预测 的 。 

口 假设 可 用 数据 包含 足够 多 的 信息 ， 足 以 学 习 输入 和 输出 之 间 的 关系 。 

在 开发 出 工作 模型 之 前 ， 这 些 只 是 假设 ,等 待 验证 真 假 。 并 非 所 有 问题 都 可 以 解决 。 你 收 
集 了 包含 输入 XX 和 目标 了 的 很 多 样 例 ， 并 不 意味 着 包含 足够 多 的 信息 来 预测 了 。 例 如 ， 如 果 
你 想 根 据 某 支 股票 最 近 的 历史 价格 来 预测 其 股价 走势 ， 那 你 成 功 的 可 能 性 不 大 ， 因 为 历史 价格 
并 没有 包含 很 多 可 用 于 预测 的 信息 。 

有 一 类 无 法 解决 的 问题 你 应 该 知道 ， 那 就 是 非 平稳 问题 (nonstationary problem )。 假 设 你 想 
要 构建 一 个 服装 推荐 引擎 ， 并 在 一 个 月 ( 八 月 ) 的 数据 上 训练 ， 然 后 在 冬天 开始 生成 推荐 结果 。 
一 个 大 问题 是 ， 人 们 购买 服装 的 种 类 是 随 着 季节 变化 的 ， 即 服装 购买 在 几 个 月 的 太 度 上 是 一 个 
非 平 稳 现象 。 你 想 要 建 模 的 对 象 随 着 时 间 推 移 而 改变 。 在 这 种 情况 下 ， 正 确 的 做 法 是 不 断 地 利 
用 最 新 数据 重新 训练 模型 ,或 者 在 一 个 问题 是 平稳 的 时 间 尺 度 上 收集 数据 。 对 于 服装 购买 这 种 
周期 性 问题 ， 几 年 的 数据 足以 捕捉 到 季节 性 变化 ， 但 一 定 要 记 住 ， 要 将 一 年 中 的 时 间作 为 模型 
的 一 个 输入 。 

请 记 住 ， 机 器 学 习 只 能 用 来 记忆 训练 数据 中 存在 的 模式 。 你 只 
在 过 去 的 数据 上 训练 机 器 学 习 来 预测 未 来 ， 这 里 存在 一 个 假设 ， 就 
但 事实 往往 并 非 如 此 。 


4.5.2 选择 衡量 成 功 的 指标 


要 控制 一 件 事物 ， 就 需要 能 够 观察 它 。 要 取得 成 功 ， 就 必须 给 出 成 功 的 定义 : 精度 ?准确 
率 (precision ) 和 召回 率 (recall ) ? 客户 保留 率 ? 衡量 成 功 的 指标 将 指引 你 选择 损失 洱 数 ， 即 
模型 要 优化 什么 。 它 应 该 直接 与 你 的 目标 ( 如 业务 成 功 ) 保持 一 致 。 



















































































能 识别 出 曾经 见 过 的 东西 。 
是 


经 
未 来 的 规律 与 过 去 相同 。 
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对 于 平衡 分 类 问题 ( 每 个 类 别 的 可 能 性 相同 )， 精 度 和 接收 者 操作 特征 曲线 下 面积 ( area 
under the receiver operating characteristic curve，ROC AUC ) 是 常用 的 指标 。 对 于 类 别 不 平衡 的 
问题 ， 你 可 以 使 用 准确 率 和 召回 率 。 对 于 排序 问题 或 多 标签 分 类 ， 你 可 以 使 用 平均 准确 率 均值 
(mean average precision )。 自 定义 衡量 成 功 的 指标 也 很 常见 。 要 想 了 解 各 种 机 器 学 习 的 成 功 衡量 
指标 以 及 这 些 指 标 与 不 同 问题 域 的 关系 ， 你 可 以 浏览 Kaggle 网 站 上 的 数据 科学 竞赛 ， 上 面 展示 
了 各 种 各 样 的 问题 和 评估 指标 。 








4.5.3 ”确定 评估 方法 


一 旦 明确 了 目标 ， 你 必须 确定 如 何 衡 量 当 前 的 进展 。 前 面 介绍 了 三 种 常见 的 评估 方法。 

口 留 出 验证 集 。 数 据 量 很 大 时 可 以 采用 这 种 方法 。 

口 K 折 交叉 验证 。 如 果 留 出 验证 的 样本 量 太 少 ， 无 法 保证 可 靠 性 ， 那 么 应 该 选择 这 种 方法 。 

口 重复 的 K 折 验证 。 如 果 可 用 的 数据 很 少 ， 同 时 模型 评估 又 需要 非常 准确 ， 那 么 应 该 使 用 
这 种 方法 。 

只 需 选 择 三 者 之 一 。 大 多 数 情况 下 ， 第 一 种 方法 足以 满足 要 求 。 


4.5.4 准备 数据 


一 旦 知道 了 要 训练 什么 、 要 优化 什么 以 及 评 佑 方法， 那么 你 就 几乎 已 经 准备 好 训练 模型 了 。 
但 首先 你 应 该 将 数据 格式 化 ， 使 其 可 以 输入 到 机 器 学 习 模 型 中 (这 里 假设 模型 为 深度 神经 网 络 )。 
口 如 前 所 述 ， 应 该 将 数据 格式 化 为 张 量 。 
口 这 些 张 量 的 取 值 通常 应 该 缩放 为 较 小 的 值 ， 比 如 在 [1 1] 区 间或 [0, 1] 区 间 。 
口 如 果 不 同 的 特征 具有 不 同 的 取 值 范围 〈 异 质数 据 )， 那 么 应 该 做 数据 标准 化 。 
口 你 可 能 需要 做 特征 工程 ， 尤 其 是 对 于 小 数据 问题 。 
准备 好 输入 数据 和 目标 数据 的 张 量 后 ， 你 就 可 以 开始 训练 模型 了 。 


4.5.5 开发 比 基 准 更 好 的 模型 


这 一 阶段 的 目标 是 获得 统计 功效 ( statistical power )， 即 开发 一 个 小 型 模型 ， 它 能 够 打败 纯 
随机 的 基准 ( dumb baseline )。 在 MNIST 数字 分 类 的 例子 中 ， 任 何 精 度 大 于 0.1 的 模型 都 可 以 说 
具有 统计 功效 ; 在 IMDB 的 例子 中 ,任何 精度 大 于 0.5 的 模型 都 可 以 说 具有 统计 功效 。 

注意 ,不 一 定 总 是 能 获得 统计 功效 。 如 果 你 尝试 了 多 种 合理 架构 之 后 仍然 无 法 打败 随机 基准 ， 
那么 原因 可 能 是 问题 的 答案 并 不 在 输入 数据 中 。 要 记 住 你 所 做 的 两 个 假设 。 

口 假设 输出 是 可 以 根据 输入 进行 预测 的 。 

口 假设 可 用 的 数据 包含 足够 多 的 信息 ， 足 以 学 习 输 入 和 输出 之 间 的 关系 。 
这 些 假设 很 可 能 是 错误 的 ， 这 样 的 话 你 需要 从 头 重新 开始 。 

如 果 一 切 顺 利 ， 你 还 需要 选择 三 个 关键 参数 来 构建 第 一 个 工作 模型 。 
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口 最 后 一 层 的 激活 。 它 对 网 络 输出 进行 有 效 的 限制 。 例 如 ，IMDB 分 类 的 例子 在 最 后 一 层 
使 用 了 sigmoia， 回 归 的 例子 在 最 后 一 层 没 有 使 用 激活 ， 等 等 。 
口 损失 函数 。 它 应 该 匹配 你 要 解决 的 问题 的 类 型 。 例 如 ，IMDB 的 例子 使 用 binary_ 
crossentropy、 回 归 的 例子 使 用 mse， 等 等 。 
口 优化 配置 。 你 要 使 用 哪 种 优化 器 ? 学 习 率 是 多 少 ? 大 多 数 情况 下 ， 使 用 rmsprop 及 其 
默认 的 学 习 率 是 稳妥 的 。 
关于 损失 函数 的 选择 ， 需 要 注意 ， 直 接 优化 衡量 问题 成 功 的 指标 不 一 定 总 是 可 行 的 。 有 时 
难以 将 指标 转化 为 损失 函数 ， 要 知道 ， 损 失 函 数 需要 在 只 有 小 批量 数据 时 即 可 计算 〈 理想 情况 
下 ， 只 有 一 个 数据 点 时 ， 损 失 函 数 应 该 也 是 可 计算 的 )， 而 且 还 必须 是 可 微 的 〈 否则 无 法 用 反问 
传播 来 训练 网 络 )。 例 如 ,广泛 使 用 的 分 类 指标 ROC AUC 就 不 能 被 直接 优化 。 因 此 在 分 类 任务 
中 , 常见 的 做 法 是 优化 ROC AUC 的 替代 指标 , 比如 交叉 炉 。 一 般 来 说 , 你 可 以 认为 交叉 炉 越 小 ， 
ROC AUC 越 大 。 
表 4-1 列 出 了 常见 问题 类 型 的 最 后 一 层 激 活 和 损失 函数 ， 可 以 帮 你 进行 选择 。 
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表 4-1 为 模型 选择 正确 的 最 后 一 层 激活 和 损失 函数 























问题 类 型 最 后 一 层 激活 损失 函数 
二 分 类 问题 sigmoid binary_crossentropy 
多 分 类 、 单 标签 问题 softmax categorical_crossentropy 
多 分 类 、 多 标签 问题 sigmoid binary_crossentropy 
回归 到 任意 值 无 mse 
回归 到 0~1 范围 内 的 值 sigmoid mse 或 binary_crossentropy 


4.5.6 ”扩大 模型 规模 : 开发 过 拟 合 的 模型 


一 旦 得 到 了 具有 统计 功效 的 模型 ， 问 题 就 变 成 了 : 模型 是 否 足够 强大 ? 它 是 否 具有 足够 多 
的 层 和 参数 来 对 问题 进行 建 模 ? 例如 ,只 有 单个 隐藏 层 且 只 有 两 个 单元 的 网 络 ， 在 MNIST 问题 
上 具有 统计 功效 ， 但 并 不 足以 很 好 地 解决 问题 。 请 记 住 ， 机 器 学 习 中 无 处 不 在 的 对 立 是 优化 和 
泛 化 的 对 立 ， 理 想 的 模型 是 刚好 在 欠 拟 合 和 过 拟 合 的 界线 上 ， 在 容量 不 足 和 容量 过 大 的 界线 上 。 
为 了 找到 这 条 界线 ， 你 必须 穿 过 它 。 

要 搞 清 楚 你 需要 多 大 的 模型 ， 就 必须 开发 一 个 过 拟 合 的 模型 ， 这 很 简单 。 

(1) 添加 更 多 的 层 。 

(2) 让 每 一 层 变 得 更 大 。 

(3) 训练 更 多 的 轮 次 。 

要 始终 监控 训练 损失 和 验证 损失 ， 以 及 你 所 关心 的 指标 的 训练 值 和 验证 值 。 如 果 你 发 现 模 
型 在 验证 数据 上 的 性 能 开始 下 降 ， 那 么 就 出 现 了 过 拟 合 。 

下 一 阶段 将 开始 正则 化 和 调节 模型 ， 以 便 尽 可 能 地 接近 理想 模型 ， 既 不 过 拟 合 也 不 从 拟 合 。 
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4.5.7 ”模型 正则 化 与 调节 超 参数 


这 一 步 是 最 费时 间 的 :你 将 不 断 地 调节 模型 训练 .在 验证 数据 上 评估 (这 里 不 是 测试 数据 )、 
再 次 调节 模型 ， 然 后 重复 这 一 过 程 ， 直 到 模型 达到 最 佳 性 能 。 你 应 该 尝试 以 下 几 项 。 
口 添加 dropout。 
口 尝试 不 同 的 架构 : 增加 或 减少 层 数 。 
口 添加 Ll 和 /或 L2 正则 化 。 
口 尝试 不 同 的 超 参数 ( 比如 每 层 的 单元 个 数 或 优化 器 的 学 习 率 )， 以 找到 最 佳 配置 。 
口 ( 可 选 ) 反复 做 特征 工程 : 添加 新 特征 或 删除 没有 信息 量 的 特征 。 
请 注意 : 每 次 使 用 验证 过 程 的 反馈 来 调节 模型 ， 都 会 将 有 关 验 证 过 程 的 信息 泄露 到 模型 中 。 
如 果 只 重复 几 次 ,那么 无 关 紧要 ; 但 如 果 系 统 性 地 友人 代 许多 次 ， 最 终 会 导致 模型 对 验证 过 程 过 
拟 合 ( 即使 模型 并 没有 直接 在 验证 数据 上 训练 )。 这 会 降低 验证 过 程 的 可 靠 性 。 
一 旦 开发 出 令 人 满意 的 模型 配置 ， 你 就 可 以 在 所 有 可 用 数据 ( 训练 数据 + 验证 数据 ) 上 训 
练 最 终 的 生产 模型 ， 然 后 在 测试 集 上 最 后 评估 一 次 。 如 果 测 试 集 上 的 性 能 比 验证 集 上 差 很 多 ， 
那么 这 可 能 意味 着 你 的 验证 流程 不 可 靠 ， 或 者 你 在 调节 模型 参数 时 在 验证 数据 上 出 现 了 过 拟 合 。 
在 这 种 情况 下 ， 你 可 能 需要 换 用 更 加 可 靠 的 评估 方法 ， 比 如 重复 的 玉 折 验证 。 


本 章 小 结 


口 定义 问题 与 要 训练 的 数据 。 收 集 这 些 数据 ， 有 需要 的 话 用 标签 来 标注 数据 。 

D 选择 衡量 问题 成 功 的 指标 。 你 要 在 验证 数据 上 监控 哪些 指标 ? 

口 确定 评估 方法 : 留 出 验证 ? 天 折 验 证 ? 你 应 该 将 哪 一 部 分 数据 用 于 验证 ? 

口 开发 第 一 个 比 基 准 更 好 的 模型 ， 即 一 个 具有 统计 功效 的 模型 。 

口 开发 过 拟 合 的 模型 。 

口 基于 模型 在 验证 数据 上 的 性 能 来 进行 模型 正则 化 与 调节 超 参数 。 许 多 机 器 学 习 研 究 往往 
只 关注 这 一 步 ， 但 你 一 定 要 牢记 整个 工作 流程 。 

























































































Part 2 EE 


深度 学 习 实践 





在 第 5~9 章 ， 你 将 通过 实践 培养 出 如 何 用 深度 学 习 解 决 现实 问题 的 直觉 ， 还 将 学 到 重要 的 
深度 学 习 最 佳 实践 。 本 书 大 部 分 代码 示例 都 集中 在 第 二 部 分 。 


深度 学 习 用 于 计算 机 视 贰 


日 





本 章 包 括 以 下 内 容 : 

口 理解 卷 积 神经 网 络 ( convnet ) 

口 使 用 数据 增强 来 降低 过 拟 合 

口 使 用 预 训练 的 卷 积 神经 网 络 进行 特征 提取 

口 微调 预 训练 的 卷 积 神经 网 络 

口 将 卷 积 神经 网 络 学 到 的 内 容 及 其 如 何 做 出 分 类 决策 可 视 化 











本 章 将 介绍 卷 积 神经 网 络 ， 也 叫 convnet， 它 是 计算 机 视觉 应 用 几乎 都 在 使 用 的 一 种 深度 
学 习 模 型 。 你 将 学 到 将 卷 积 神经 网 络 应 用 于 图 像 分 类 问题 ， 特 别 是 那些 训练 数据 集 较 小 的 问题 。 
如 果 你 工作 的 地 方 并 非 大 型 科技 公司 ， 这 也 将 是 你 最 常见 的 使 用 场景 。 


5.1 卷 积 神经 网 络 简介 


我 们 将 深入 讲解 卷 积 神经 网 络 的 原理 ， 以 及 它 在 计算 机 视觉 任务 上 为 什么 如 此 成 功 。 但 在 
此 之 前 ， 我 们 先 来 看 一 个 简单 的 卷 积 神经 网 络 示例 ， 即 使 用 卷 积 神经 网 络 对 MNIST 数字 进行 分 
类 ， 这 个 任务 我 们 在 第 2 章 用 密集 连接 网 络 做 过 〈 当时 的 测试 精度 为 97.8% )。 虽 然 本 例 中 的 卷 
积 神经 网 络 很 简单 ， 但 其 精度 肯定 会 超过 第 2 章 的 密集 连接 网 络 。 

下 列 代码 将 会 展示 一 个 简单 的 卷 积 神经 网 络 。 它 是 conv2D 层 和 MaxPooling2D 层 的 堆 县 。 
很 快 你 就 会 知道 这 些 层 的 作用 。 





代码 清单 5-1 实例 化 一 个 小 型 的 卷 积 神经 网 络 
from keras import layers 
from keras import models 


model = models.Sequential () 

model.add (layers.Conv2D(32, (3, 3), activation='relu', input_shape=(28, 28, 1)) 
model.add (layers .MaxPooling2D((2, 2))) 

model.add (layers.Conv2D(64, (3, 3), activation='relu')) 
model.add (layers .MaxPooling2D((2, 2))) 

model.add (layers.Conv2D(64, (3, 3), activation='relu')) 
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重要 的 是 ， 卷 积 神经 网 络 接收 形状 为 (image_height，image_wiath，image_channels) 
的 输入 张 量 (不 包括 批量 维度 )。 本 例 中 设置 卷 积 神经 网 络 处 理 大 小 为 (28，28，1) 的 输入 张 量 ， 
这 正 是 MNIST 图 像 的 格式 。 我 们 向 第 一 层 传人 参数 input_shape= (28，28，1) 来 完成 此 设置 。 
我 们 来 看 一 下 目前 卷 积 神经 网 络 的 架构 。 


>>> model .summary () 




















Layer (type) Output Shape Param # 
oonvad oo en 6 6 2 
max_pooling2d_1 (MaxPooling2D) (None, 13, 13, 32) 0 
Conv2d_2 (Conv2D) (None, 11, 11, 64) 18496 
max_pooling2gd 2 (MaxPooling2D) (None, 5, 5, 64) 0 
conv2d_ 3 (Conv2D) (None, 3, 3, 64) 36928 


Total params: 55,744 
Trainable params: 55,744 
Non-trainable params: 0 


可 以 看 到 ， 每 个 conv2D 层 和 MaxPooling2D 层 的 输出 都 是 一 个 形状 为 (height，wigth, 
channels) 的 3D 张 量 。 宽 度 和 高 度 两 个 维度 的 尺寸 通常 会 随 着 网 络 加 深 而 变 小 。 通 道 数量 由 传 
和 人 conv2D 层 的 第 一 个 参数 所 控制 (32 或 64 )。 

下 一 步 是 将 最 后 的 输出 张 量 [大 小 为 (3，3， 64) ] 输入 到 一 个 密集 连接 分 类 器 网 络 中 ， 
即 Dense 层 的 堆 匡 , 你 已 经 很 熟悉 了 。 这 些 分 类 咒 可 以 处 理 1D 向 量 , 而 当前 的 输出 是 3D 张 量 。 
首先 ， 我们 需要 将 3D 输出 展 平 为 1D ， 然 后 在 上 面 添加 几 个 Dense 层 。 





代码 清单 5-2 在 卷 积 神经 网 络 上 添加 分 类 器 





model.add (layers.Flatten()) 
model.add(layers.Dense(64, activation='relu')) 
model.add (layers.Dense(10, activation='softmax')) 


我 们 将 进行 10 类 别 分 类 ,最 后 一 层 使 用 带 10 个 输出 的 softmax 激活 。 现 在 网 络 的 架构 如 下 。 


>>> model .summary () 














Layer (type) Output Shape Param # 
convad 1 (ConvaD) one, 26, 26, 32) 320 
max_pooling2dq_ 1 (MaxPooling2D) (None, 13, 13, 32) 0 
Conv2d_2 (Conv2D) (None, 11, 11, 64) 18496 
max_pooling2gd 2 (MaxPooling2D) (None, 5, 5, 64) 0 





conv2d_3 (Conv2D) (None, 3, 3, 64) 36928 
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flatten_ 1 (Flatten) (None, 576) 0 
dense_1 (Dense) (None, 64) 36928 
dense_2 (Dense) (None, 10) 650 


Total params: 93,322 
Trainable params: 93,322 
Non-trainable params: 0 


如 你 所 见 ， 在 进入 两 个 Dense 层 之 前 , 形状 (3，3， 64) 的 输出 被 展 平 为 形状 (576, ) 的 
向 量 。 

下 面 我 们 在 MNIST 数字 图 像 上 训练 这 个 卷 积 神经 网 络 。 我 们 将 复 用 第 2 章 MNIST 示例 中 
的 很 多 代码 。 


代码 清单 5-3 在 MNIST 图 像 上 训练 卷 积 神经 网 络 





from keras.datasets import mnist 
from keras.utils import to_categorical 


(train images, train labels), (test_images, test_labels) = mnist.load datal() 


train images = train images.reshape((60000, 28, 28, 1)) 
train images = train images.astype('float32') / 255 


test_images = test_ images.reshape((10000, 28, 28, 1)) 
test_images = test_ images.astype('float32') / 255 


train_ labels = to_categorical (train labels) 
test_labels = to_categorical (test_labels) 





model.compile(optimizer='rmsprop', 
loss='categorical_ crossentropy', 
metrics=['accuracy']) 

model.fit (train images, train labels, epochs=5, batch size=64) 


我 们 在 测试 数据 上 对 模型 进行 评估 。 


>>> test_loss, test_acc = model.evaluate(test_images, test_labels) 
>>> test_acc 
0.99080000000000001 


第 2 章 密 集 连 接 网 络 的 测试 精度 为 97.8%， 但 这 个 简单 卷 积 神经 网 络 的 测试 精度 达到 了 
99.3%， 我 们 将 错误 率 降 低 了 68% ( 相对 比例 )。 相 当 不 错 ! 

与 密集 连接 模型 相 比 ， 为 什么 这 个 简单 卷 积 神经 网 络 的 效果 这 么 好 ? 要 回答 这 个 问题 ， 我 
们 来 深入 了 解 conv2D 层 和 MaxPooling2D 层 的 作用 。 


5.1.1 卷 积 运算 
密集 连接 层 和 卷 积 层 的 根本 区 别 在 于 ，Dense 层 从 输入 特征 空间 中 学 到 的 是 全 局 模式 
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( 比如 对 于 MNIST 数字 ， 全 局 模式 就 是 涉及 所 有 像素 的 模式 )， 而 卷 积 层 学 到 的 是 局 部 模式 〈 见 
图 5-1 )， 对 于 图 像 来 说 ， 学 到 的 就 是 在 输入 图 像 的 二 维 小 窗口 中 发 现 的 模式 。 在 上 面 的 例子 中 ， 
这 些 窗口 的 大 小 都 是 3x3。 








图 5-1 图 像 可 以 被 分 解 为 局 部 模式 ， 如 边缘 、 纹 理 等 


这 个 重要 特性 使 卷 积 神经 网 络 具 有 以 下 两 个 有 趣 的 性 质 。 
口 卷 积 神经 网 络 学 到 的 模式 具有 平移 不 变性 (translation invariant )。 卷 积 神经 网 络 在 图 像 
右 下 角 学 到 某 个 模式 之 后 ， 它 可 以 在 任何 地 方 识别 这 个 模式 ， 比 如 左上 角 。 对 于 密集 连 5 
接 网 络 来 说 ， 如 果 模 式 出 现在 新 的 位 置 ， 它 只 能 重新 学 习 这 个 模式 。 这 使 得 卷 积 神经 网 
络 在 处 理 图 像 时 可 以 高 效 利 用 数据 ( 因为 视觉 世界 从 根本 上 具有 平移 不 变性 )， 它 只 需 
要 更 少 的 训练 样本 就 可 以 学 到 具有 泛 化 能 力 的 数据 表示 。 
口 卷 积 神经 网 络 可 以 学 到 模式 的 空间 层次 结构 ( spatial hierarchies of patterns )， 见 图 5-2。 
第 一 个 卷 积 层 将 学 习 较 小 的 局 部 模式 〈 比如 边缘 )， 第 二 个 卷 积 层 将 学 习 由 第 一 层 特征 
组 成 的 更 大 的 模式 ， 以 此 类 推 。 这 使 得 卷 积 神经 网 络 可 以 有 效 地 学 习 越 来 越 复 杂 、 越 来 
越 抽 象 的 视觉 概念 〈 因为 视觉 世界 从 根本 上 具有 空间 层次 结构 )。 
对 于 包含 两 个 空间 轴 (高度 和 宽度 ) 和 一 个 深度 轴 ( 也 叫 通道 轴 ) 的 3D 张 量 ， 其 卷 积 也 
叫 特征 图 ( feature map )。 对 于 RGB 图 像 , 深度 轴 的 维度 大 小 等 于 3, 因为 图 像 有 3 个 颜色 通道 : 
红色 、 绿 色 和 蓝 色 。 对 于 黑白 图 像 ( 比如 MNIST 数字 图 像 )， 深 度 等 于 1 ( 表示 灰 度 等 级 )。 卷 
只 运算 从 输入 特征 图 中 提取 图 块 ， 并 对 所 有 这 些 图 块 应 用 相同 的 变换 ， 生 成 输出 特征 图 ( output 
feature map )。 该 输出 特征 图 仍 是 一 个 3D 张 量 ， 具 有 宽度 和 高 度 ， 其 深度 可 以 任意 取 值 ， 因 为 
输出 深度 是 层 的 参数 ， 深 度 轴 的 不 同 通道 不 再 像 RGB 输入 那样 代表 特定 颜色 ， 而 是 代表 过 滤器 
( filter )。 过 滤器 对 输入 数据 的 某 一 方面 进行 编码 ， 比 如 ， 单 个 过 滤器 可 以 从 更 高 层次 编码 这 样 
一 个 概念 :“ 输 入 中 包含 一 张 脸 。 
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图 5-2 ”视觉 世界 形成 了 视觉 模块 的 空间 层次 结构 : 超 局 部 的 边缘 组 合成 局 部 的 对 象 ， 
比如 眼睛 或 耳 条 ee “ 猫 ” 


在 MNIST 示例 中 ， 第 一 个 卷 积 层 接收 一 个 大 小 为 (28，28，1) 的 特征 图 ， 并 输出 一 个 大 
小 为 (25，26，32) 的 特征 图 ， 即 它 在 输入 上 计算 32 个 过 滤器 。 We 每 个 
通道 都 包含 一 个 26 x 26 的 数值 网 格 ， 它 是 过 滤器 对 输入 的 响应 图 ( response map )， 表 示 这 个 过 
滤器 模式 在 输入 中 不 同位 置 的 响应 ( 见 图 5-3 )。 这 也 是 特征 图 这 一 术语 的 含义 : 深度 轴 的 每 个 
维度 都 是 一 个 特征 (或 过 滤器 )， 而 2D 张 量 output[:， :，n] 是 这 个 过 滤器 在 输入 上 的 响应 
的 二 维 空间 图 (map )。 






































响应 图 ， 定 量 描述 这 
个 过 滤器 模式 在 不 同 
原始 输入 的 位 置 中 是 否 存 在 




















图 5-3 ”响应 图 的 概念 : 某 个 模式 在 输入 中 的 不 同位 置 是 否 存 在 的 二 维 图 


卷 积 由 以 下 两 个 关键 参数 所 定义 。 

口 从 输入 中 提取 的 图 块 尺 寸 : 这 些 图 块 的 大 小 通常 是 3x3 或 5x5。 本 例 中 为 3x3， 这 
很 常见 的 选择 。 

口 输出 特征 图 的 深度 : 卷 积 所 计算 的 过 滤器 的 数量 。 本 例 第 一 层 的 深度 为 32， 最 后 一 层 的 
深度 是 64。 
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对 于 Keras 的 Conv2D 层 ， 这 些 参数 都 是 向 层 传人 的 前 几 个 参数 : Conv2D (output_depth， 
(window_height, window_width))。 

卷 积 的 工作 原理 : 在 3D 输入 特征 图 上 滑动 (slide ) 这 些 3 x 3 或 5x5 的 窗口 ， 在 每 个 可 能 
的 位 置 停止 并 提取 周围 特征 的 3D 图 块 [形状 为 (window_height, window width, input_ 
depth) ]。 然 后 每 个 3D 图 块 与 学 到 的 同一 个 权重 矩阵 [ 叫 作 卷 积 核 ( convolution kernel )] 做 
张 量 积 ， 转 换 成 形状 为 (output_qepth,) 的 1D 疝 量 。 然 后 对 所 有 这 些 向 量 进 行 空间 重组 ， 
使 其 转换 为 形状 为 (height，wigdth，output_gdepth) 的 3D 输出 特征 图 。 输 出 特征 图 中 的 
每 个 空间 位 置 都 对 应 于 输入 特征 图 中 的 相同 位 置 ( 比如 输出 的 右 下 角 包 含 了 输入 右 下 角 的 信 
息 )。 举 个 例子 ， 利 用 3 x3 的 窗口 ， 向 量 output [i，j，:] 来 自 3D 网 块 input[i-1:i+1， 
j-1:j+1，:]。 整 个 过 程 详 见 图 5-4。 






































输入 特征 图 
Ne 3 x 3 输入 图 块 
与 卷 积 核 做 点 积 + 
MM 
输出 深度 中 中 变换 后 的 图 块 


输出 特征 图 





输出 深度 











图 5-4 卷 积 的 工作 原理 








注意 ， 输 出 的 宽度 和 高 度 可 能 与 输入 的 宽度 和 高 度 不 同 。 不 同 的 原因 可 能 有 两 点 。 
口 边界 效应 ， 可 以 通过 对 输入 特征 图 进行 填充 来 抵消 。 

口 使 用 了 步 幅 (stride )， 稍 后 会 给 出 其 定义 。 

我 们 来 深入 研究 一 下 这 些 概念 。 
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1. 理解 边界 效应 与 填充 


假设 有 一 个 5x5 的 特征 图 ( 共 25 个 方块 )。 其 
3 x3 的 窗口 ， 这 9 个 方块 形成 一 个 3x3 的 网 格 ( 见 图 5-5 )。 因 此 ， 输 出 特 行 











P 只 有 9 个 方块 可 以 作为 








P 心 放 入 一 个 
E 图 的 尺寸 是 3 x 3。 


它 比 输 入 尺寸 小 了 一 点 ， 在 本 例 中 沿 着 每 个 维度 部 正 好 缩小 了 2 个 方块 。 在 前 一 个 例子 中 你 也 


可 以 看 到 这 种 边界 效应 的 作用 : 开始 的 输入 尺寸 为 28 x 28， 经 过 第 一 个 卷 积 


26 x 26。 





























图 5-5 在 5x5 的 输入 特征 图 











层 之 后 尺寸 变 为 










































































Ph， 可 以 提取 3 x 3 图 块 的 有 效 位 置 


如 果 你 希望 输出 特征 图 的 空间 维度 与 输入 相同 ， 那 么 可 以 使 用 填充 (padding )。 填 充 是 在 

















列 〈 见 图 5-6 )。 

















输入 特征 图 的 每 一 边 添 加 适当 数目 的 行 和 列 ， 使 得 每 个 输入 方块 都 能 作为 卷 积 窗口 的 中 心 。 对 
于 3x3 的 窗口 ， 在 左右 各 添加 一 列 ， 在 上 下 各 添 力 


[两 行 和 两 














































































































图 5-6 对 5x5 的 输入 进行 填充 ， 以 便 能 够 提取 出 25 个 3 x3 的 图 块 











对 于 conv2D 层 ， 可 以 通过 paddqing 参数 来 设置 填充 ， 








[一 行 。 对 于 5 x5 的 窗口 ， 各 添 力 
一 和 XX XX | 水 
4 Bx 
2 时 
XX 和 
XX 4 
A 
和 
XX 


这 个 参数 有 两 个 取 值 : "valia" 表 


示 不 使 用 填充 ( 只 使 用 有 效 的 窗口 位 置 );" same" 表示 “填充 后 输出 的 宽度 和 高 度 与 输入 相同 ”。 


padding 参数 的 默认 值 为 "valiq"。 
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2. 理解 卷 积 步 幅 

影响 输出 尺寸 的 男 一 个 因素 是 步 幅 的 概念 。 目 前 为 止 ， 对 卷 积 的 描述 都 假设 卷 积 窗口 的 中 
心 方块 都 是 相 邻 的 。 但 两 个 连续 窗口 的 距离 是 卷 积 的 一 个 参数 ， 叫 作 步 幅 ， 默 认 值 为 1。 也 可 
以 使 用 步 进 卷 积 (strided convolution )， 即 步 幅 大 于 1 的 卷 积 。 在 图 5-7 中 ,你 可 以 看 到 用 步 幅 
为 2 的 3x3 卷 积 从 5x5 输入 中 提取 的 图 块 (无 填充 )。 


































































































图 5-7 2x2 步 幅 的 3x3 卷 积 图 块 


步 幅 为 2 意味 着 特征 图 的 宽度 和 高 度 都 被 做 了 2 倍 下 采样 (除了 边界 效应 引起 的 变化 )。 虽 
然 步 进 卷 积 对 某 些 类 型 的 模型 可 能 有 用 ， 但 在 实践 中 很 少 使 用 。 熟 悉 这 个 概念 是 有 好 处 的 。 

为 了 对 特征 图 进行 下 采样 ， 我 们 不 用 步 幅 ， 而 是 通常 使 用 最 大 池 化 (max-pooling ) 运算 ， 
你 在 第 一 个 卷 积 神经 网 络 示 例 中 见 过 此 运算 。 下 面 我 们 来 深入 研究 这 种 运算 。 


5.1.2 最 大 池 化 运算 


在 卷 积 神 经 网 络 示例 中 ， 你 可 能 注意 到 ， 在 每 个 MaxPooling2D 层 之 后 ， 特 征 图 的 尺寸 都 
会 减 半 。 例 如 ， 在 第 一 个 MaxPooling2D 层 之 前 ， 特 征 网 的 尺寸 是 26 x 26， 但 最 大 池 化 运算 将 
其 减 半 为 13 x 13。 这 就 是 最 大 池 化 的 作用 : 对 特征 图 进行 下 采样 ， 与 步 进 卷 积 类 似 。 

最 大 池 化 是 从 输入 特征 图 中 提取 窗口 ， 并 输出 每 个 通道 的 最 大 值 。 它 的 概念 与 卷 积 类 似 ， 
但 是 最 大 池 化 使 用 硬 编码 的 max 张 量 运算 对 局 部 图 块 进行 变换 ,而 不 是 使 用 学 到 的 线性 变换 ( 卷 
积 核 )。 最 大 池 化 与 卷 积 的 最 大 不 同 之 处 在 于 ， 最 大 池 化 通常 使 用 2 x 2 的 窗口 和 步 幅 2， 其 目 
的 是 将 特征 图 下 采样 2 倍 。 与 此 相对 的 是 ， 卷 积 通常 使 用 3 x3 窗口 和 步 幅 1。 

为 什么 要 用 这 种 方式 对 特征 图 下 采样 ”为 什么 不 删除 最 大 池 化 层 , 一 直 保 留 较 大 的 特征 图 ? 
我 们 来 这 么 做 试 一 下 。 这 时 模型 的 卷 积 基 ( convolutional base ) 如 下 所 示 。 


model_no_max_pool = models.Sequential () 
model_no_max_pool.add(layers.Conv2D(32, (3, 3 
input_shape=(28, 28, 1) 
model_no_ max_pool.add (layers.Conv2D(64, (3, 3 
model_no_ max_pool.add (layers.Conv2D(64, (3, 3 
















































































), activation='relu', 
) ) 

), activation='relu')) 
), activation='relu')) 
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该 模型 的 架构 如 下 。 


>>> model_no_max_ pool.summary () 











Layer (type) Output Shape Param # 
convaa 4 (Con2D) (None, 26, 26, 32) 320 
conv2d_5 (Conv2D) (None, 24, 24, 64) 18496 
conv2d_6 (Conv2D) (None, 22, 22, 64) 36928 


Total params: 55,744 
Trainable params: 55,744 
Non-trainable params: 0 


这 种 架构 有 什么 问题 7 有 如 下 两 点 问题 。 

口 这 种 架构 不 利于 学 习 特 征 的 空间 层级 结构 。 第 三 层 的 3x3 窗口 中 只 包含 初始 输入 的 
7x7 窗 口中 所 包含 的 信息 。 卷 积 神经 网 络 学 到 的 高 级 模式 相对 于 初始 输入 来 说 仍然 很 小 ， 
这 可 能 不 足以 学 会 对 数字 进行 分 类 ( 你 可 以 试 试 仅 通过 7 像素 x 7 像素 的 窗口 观察 图 像 
来 识别 其 中 的 数字 )。 我 们 需要 让 最 后 一 个 卷 积 层 的 特征 包含 输入 的 整体 信息 。 

口 最 后 一 层 的 特征 图 对 每 个 样本 共有 22 x 22 x 64=30 976 个 元 素 。 这 太 多 了 。 如 果 你 将 其 
展 平 并 在 上 面 添加 一 个 大 小 为 512 的 Dense 层 ， 那 一 层 将 会 有 1580 万 个 参数 。 这 对 于 
这 样 一 个 小 模型 来 说 太 多 了 ， 会 导致 严重 的 过 拟 合 。 

简 而 言 之 ,使 用 下 采样 的 原因 ， 一 是 减少 需要 处 理 的 特征 图 的 元 素 个 数 ， 二 是 通过 让 连续 
卷 积 层 的 观察 窗口 越 来 越 大 ( 即 窗 口 覆 盖 原 始 输入 的 比例 越 来 越 大 )， 从 而 引入 空间 过 滤器 的 层 
级 结构 。 

注意 ， 最 大 池 化 不 是 实现 这 种 下 采样 的 唯一 方法 。 你 已 经 知道 ， 还 可 以 在 前 一 个 卷 积 层 中 
使 用 步 幅 来 实现 。 此 外 ， 你 还 可 以 使 用 平均 池 化 来 代替 最 大 池 化 ， 其 方法 是 将 每 个 局 部 输入 同 
块 变 换 为 取 该 图 块 各 通道 的 平均 值 ,而 不 是 最 大 值 。 但 最 大 池 化 的 效果 往往 比 这 些 蔡 代 方 法 更 好 。 
简 而 言 之 ， 原 因 在 于 特征 中 往往 编码 了 某 种 模式 或 概念 在 特征 图 的 不 同位 置 是 否 存在 〈 因此 得 
名 特征 图 )， 而 观察 不 同 特征 的 最 大 值 而 不 是 平均 值 能 够 给 出 更 多 的 信息 。 因 此 ， 最 合理 的 子 采 
样 策略 是 首先 生成 密集 的 特征 图 (通过 无 步 进 的 卷 积 ), 然后 观察 特征 每 个 小 图 块 上 的 最 大 激活 ， 
而 不 是 查看 输入 的 稀 玻 窗口 ( 通过 步 进 卷 积 ) 或 对 输入 图 块 取 平均 ， 因 为 后 两 种 方法 可 能 导致 
错过 或 淡化 特征 是 否 存 在 的 信息 。 

现在 你 应 该 已 经 理解 了 卷 积 神经 网 络 的 基本 概念 ， 即 特征 图 、 卷 积 和 最 大 池 化 ， 并 且 也 知 
道 如 何 构 建 一 个 小 型 卷 积 神经 网 络 来 解决 简单 问题 ， 比 如 MNIST 数字 分 类 。 下 面 我 们 将 介绍 更 
加 实用 的 应 用 。 


5.2 在 小 型 数据 集 上 从 头 开始 训练 一 个 卷 积 神经 网 络 
使 用 很 少 的 数据 来 训练 一 个 图 像 分 类 模型 ， 这 是 很 常见 的 情况 ， 如 果 你 要 从 事 计算 机 视觉 
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方面 的 职业 ， 很 可 能 会 在 实践 中 遇 到 这 种 情况 。“ 很 少 的 ”样本 可 能 是 几 百 张 图 像 ， 也 可 能 是 几 
万 张 图 像 。 来 看 一 个 实例 ， 我 们 将 重点 讨论 猫 狗 图 像 分 类 ， 数 据 集中 包含 4000 张 猫 和 狗 的 图 像 
( 2000 张 猫 的 图 像 ，2000 张 狗 的 图 像 )。 我 们 将 2000 张 图 像 用 于 训练 ，1000 张 用 于 验证 ，1000 
张 用 于 测试 。 

本 节 将 介绍 解决 这 一 问题 的 基本 策略 ， 即 使 用 已 有 的 少量 数据 从 头 开始 训练 一 个 新 模型 。 
首先 ， 在 2000 个 训练 样本 上 训练 一 个 简单 的 小 型 卷 积 神经 网 络 ， 不 做 任何 正则 化 ， 为 模型 目标 
设 定 一 个 基准 。 这 会 得 到 71% 的 分 类 精度 。 此 时 主要 的 问题 在 于 过 拟 合 。 然 后 ， 我 们 会 介绍 数 
据 增强 〈 data augmentation )， 它 在 计算 机 视觉 领域 是 一 种 非常 强大 的 降低 过 拟 合 的 技术 。 使 用 
数据 增强 之 后 ， 网 络 精度 将 提高 到 82%。 

5.3 节 会 介绍 将 深度 学 习 应 用 于 小 型 数据 集 的 另外 两 个 重要 技巧 : 用 预 训练 的 网 络 做 特征 提 
取 (得 到 的 精度 范围 在 90%~96% )， 对 预 训练 的 网 络 进行 微调 (最终 精度 为 97% )。 总 而 言 之 ， 
这 三 种 策略 一 一 从 头 开始 训练 一 个 小 型 模型 、 使 用 预 训练 的 网 络 做 特征 提取 、 对 预 训 练 的 网 络 
进行 微调 一 一 构成 了 你 的 工具 箱 ， 未 来 可 用 于 解决 小 型 数据 集 的 图 像 分 类 问题 。 


5.2.1 深度 学 习 与 小 数据 问题 的 相关 性 


有 时 你 会 听 人 说 ， 仅 在 有 大 量 数据 可 用 时 ， 深 度 学 习 才 有 效 。 这 种 说 法 部 分 正确 : 深度 学 
习 的 一 个 基本 特性 就 是 能 够 独立 地 在 训练 数据 中 找到 有 趣 的 特征 ， 无 顷 人 为 的 特征 工程 ， 而 这 
只 在 拥有 大 量 训 练 样本 时 才能 实现 。 对 于 输入 样本 的 维度 非常 高 ( 比如 图 像 ) 的 问题 尤其 如 此 。 

但 对 于 初学 者 来 说 ， 所 谓 “ 大 量 ” 样 本 是 相对 的 ， 即 相对 于 你 所 要 训练 网 络 的 大 小 和 深度 
而 言 。 只 用 几 十 个 样本 训练 卷 积 神经 网 络 就 解决 一 个 复杂 问题 是 不 可 能 的 ， 但 如 果 模 型 很 小 ， 
并 做 了 很 好 的 正则 化 ， 同 时 任务 非常 简单 ， 那 么 几 百 个 样本 可 能 就 足够 了 。 由 于 卷 积 神经 网 络 
学 到 的 是 局 部 的 、 平 移 不 变 的 特征 ， 它 对 于 感知 问题 可 以 高 效 地 利用 数据 。 虽 然 数据 相对 较 少 ， 
但 在 非常 小 的 图 像 数 据 集 上 从 头 开始 训练 一 个 卷 积 神经 网 络 ， 仍 然 可 以 得 到 不 错 的 结果 ， 而 且 
无 须 任何 自 定义 的 特征 工程 。 本 节 你 将 看 到 其 效果 。 

此 外 ,深度 学 习 模 型 本 质 上 具有 高 度 的 可 复 用 性 ， 比 如 ,已 有 一 个 在 大 规模 数据 集 上 训练 
的 图 像 分 类 模型 或 语音 转 文本 模型 ， 你 只 需 做 很 小 的 修改 就 能 将 其 复 用 于 完全 不 同 的 问题 。 特 
别 是 在 计算 机 视觉 领域 , 许多 预 训练 的 模型 (通常 都 是 在 ImageNet 数据 集 上 训练 得 到 的 ) 现 
在 都 可 以 公开 下 载 ， 并 可 以 用 于 在 数据 很 少 的 情况 下 构建 强大 的 视觉 模型 。 这 是 5.3 节 的 内 容 。 
我 们 先 来 看 一 下 数据 。 


5.2.2 下 载 数 据 


本 节 用 到 的 猫 狗 分 类 数据 集 不 包含 在 Keras 中 。 它 由 Kaggle 在 2013 年 末 公 开 并 作为 一 项 
计算 视觉 竞赛 的 一 部 分 ， 当 时 卷 积 神经 网 络 还 不 是 主流 算法 。 你 可 以 从 https://www.kaggle.com/ 
c/dogs-vs-cats/data 下 载 原始 数据 集 ( 如 果 没 有 Kaggle 账号 的 话 ， 你 需要 注册 一 个 ， 别 担心 ， 很 
简单 )。 
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这 些 图 像 都 是 中 等 分 辩 率 的 彩色 JPEG 图 像 。 图 5-8 给 出 了 一 些 样本 示例 。 





图 5-8 ”猎狗 分 类 数据 集 的 一 些 样本 。 没 有 修改 尺寸 : 样本 在 尺寸 、 外 观 等 方面 是 不 一 样 的 


不 出 所 料 ，2013 年 的 猫 狗 分 类 Kaggle 竞赛 的 优胜 者 使 用 的 是 卷 积 神经 网 络 。 最 佳 结果 达到 
了 95% 的 精度 。 本 例 中 ， 虽 然 你 只 在 不 到 参赛 选手 所 用 的 10% 的 数据 上 训练 模型 ， 但 结果 也 和 
这 个 精度 相当 接近 ( 见 下 一 节 )。 

这 个 数据 集 包 含 25 000 张 猫 狗 图 像 ( 每 个 类 别 都 有 12 500 张 )， 大 小 为 543MB ( 压缩 后 )。 
下 载 数 据 并 解压 之 后 ， 你 需要 创建 一 个 新 数据 集 ， 其 中 包含 三 个 子 集 : 每 个 类 别 各 1000 个 样本 
的 训练 集 、 每 个 类 别 各 500 个 样本 的 验证 集 和 每 个 类 别 各 500 个 样本 的 测试 集 。 

创建 新 数据 集 的 代码 如 下 所 示 。 

















代码 清单 5-4 ”将 图 像 复 制 到 训练 、 验 证 和 测试 的 目录 
import os, shutil | 


original_ dataset_dir = '/Users/fchollet/Downloads/kaggle original_ data' 


base_dir = '/Users/fchollet/Downloads/cats_angd_dogs_small' < 一 保存 较 小 数据 集 的 目录 
os.mkdir (base_dir) 





train dir = os.path.join(base_ dir, 'train') 
os.mkdir(train_ dir) 

中 对 应 划 人 网 
validation dir = os.path.join(base dir, 'validation') i it 
os.mkdir (validation_ dir) 验证 和 测试 的 目录 
test_dir = os.path.join(base dir, 'test') 
os.mkdir(test_dir) 














train cats_dir = os.path.join(train dir, 'cats') 
os.mkdir(train cats_ dir) 





猫 的 训练 图 像 目 录 
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train dogs_dir = os.path.join(train dir, 'dogs') | 狗 的 训练 图 像 目 录 
os.mkdir(train dogs_dir) Se 


Va let ona elt osoatlt join(validation dir, 'cats') | 猫 的 验证 图 像 目录 
os.mkdir(validation cats_dir) 


validation dogs_dir = os.path.join(validation dir, 'dogs') | 狗 的 验证 图 像 目录 
os.mkdir(validation dogs_dir) 


加 VE h.joi TE ' Sih 
est_cats_qdir os ae join(test_dir cats') | 猫 的 测试 图 像 目录 
os.mkdir(test_cats_dir) 


test_dogs_dir = os.path.join(test_dir, 'dogs') | 狗 的 测试 图 像 目录 
ob 入 3 
os.mkdir(test_dogs_dir) 


fnames = ['cat.{}.jpg'.format (i) for i in range(1000)] 

for fname in fnames: 
src = os.path.join(original dataset_ dir, fname) 
dst = os.path.join(train cats_dir, fname) 
shutil.copyfile(src, dst) 





将 前 1000 张 猫 的 图 像 复 制 


#| train cats dir 


fnames = ['cat.{}.jpg'.format (i) for i in range(1000, 1500)] 

for fname in fnames: 
src = os.path.join(original dataset_ dir, fname) 
dst = os.path.join(validation cats_dir, fname) 
shutil.copyfile(src, dst) 


将 接 下 来 500 张 猫 的 图 像 复 


制 到 validation cats_dir 








fnames = ['cat.{}.jpg'.format (i) for i in range(1500, 2000)] 

for fname in fnames: Ny 
src = os.path.join(original dataset_dir, fname) 将 接 下 来 的 500 张 猫 的 图 像 
dst = os.path.join(test_cats_dir, fname) 复制 到 test_cats_dir 
shutil.copyfile(src, dst) 


fnames = ['dog.{}.jpg'.format (i) for i in range(1000)] 

for fname in fnames: 
src = os.path.join(original dataset_ dir, fname) 将 前 1000 张 狗 的 图 像 复制 
dst = os.path.join(train dogs_dir, fname) 到 train dogs dir 
shutil.copyfile(src, dst) 


fnames = ['dog.{}. 
for fname in fnames: ee 
src = os.path.join(original dataset_ dir, fname) 将 接 下 来 500 张 狗 的 图 像 复 
dst = os.path.join(validation dogs_dir, fname) 制 到 validation_dogs_air 
shutil.copyfile(src, dst) 


pg'.format (i) for i in range(1000, 1500)] 


[A 


fnames = ['dog.{}.jpg'.format (i) for i in range(1500, 2000)] 
for fname in fnames: 
src = os.path.join(original dataset_ dir, fname) 将 接 下 来 500 张 狗 的 图 像 复 
dst = os.path.join(test_dogs_dir, fname) 制 到 test_aogs_dir 
shutil.copyfile(src, dst) 
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我 们 来 检查 一 下 ， 看 看 每 个 分 组 ( 训练 /验证 /测试 ) 中 分 别 包含 多 少 张 图 像 。 

















>>> print('total training cat images:', len(os.listdir(train cats_dir))) 

total training cat images: 1000 

>>> print('total training dog images:', len(os.listdir(train dogs_dir))) 

total training dog images: 1000 

>>> print('total validation cat images:', lenl(os.listdir(validation cats_dir))) 

total validation cat images: 500 

>>> print('total validation dog images:', lenl(os.listdir(validation dogs_dir))) 

total validation dog images: 500 

>>> print('total test cat images:', lenl(os.listdir(test_cats_dir)) 

total test cat images: 500 

>>> print('total test dog images:', lenl(os.listdir(test_ dogs_dir)) 

total test dog images: 500 

所 以 我 们 的 确 有 2000 张 训练 图 像 、1000 张 验证 图 像 和 1000 张 测试 图 像 。 每 个 分 组 中 两 个 
类 别 的 样本 数 相 同 ， 这 是 一 个 平衡 的 二 分 类 问题 ， 分 类 精度 可 作为 衡量 成 功 的 指标 。 


5.2.3 ”构建 网 络 


在 前 一 个 MNIST 示例 中 ， 我 们 构建 了 一 个 小 型 卷 积 神经 网 络 ， 所 以 你 应 该 已 经 熟悉 这 
种 网 络 。 我 们 将 复 用 相同 的 总 体 结构 ， 即 卷 积 神经 网 络 由 conv2D 层 (使 用 relu 激活 ) 和 
MaxPooling2D 层 交 替 堆 春 构 成 。 

但 由 于 这 里 要 处 理 的 是 更 大 的 图 像 和 更 复杂 的 问题 ， 你 需要 相应 地 增 大 网 络 ， 即 再 增加 一 
个 conv2D+MaxpPooling2D 的 组 合 。 这 既 可 以 增 大 网 络 容量 , 也 可 以 进一步 减 小 特征 图 的 尺寸， 
使 其 在 连接 Flatten 层 时 尺寸 不 会 太 大 。 本 例 中 初始 输入 的 尺寸 为 150 x 150 ( 有 些 随 意 的 选 
择 )， 所 以 最 后 在 Flatten 层 之 前 的 特征 图 大 小 为 7x7。 


注意 网 络 中 特征 图 的 深度 在 逐渐 增 大 (从 32 增 大 到 128 )， 而 特征 图 的 尺寸 在 逐渐 减 小 (从 
150 x 150 减 小 到 7x7)。 这 几乎 是 所 有 卷 积 神经 网 络 的 模式 。 
你 面 对 的 是 一 个 二 分 类 问题 ， 所 以 网 络 最 后 一 层 是 使 用 sigmoia 激活 的 单一 单元 (大 小 为 
1 的 Dense 层 )。 这 个 单元 将 对 某 个 类 别 的 概率 进行 编码 。 








代码 清单 5-5 ”将 猫 狗 分 类 的 小 型 卷 积 神经 网 络 实例 化 


from keras import layers 
from keras import models 











model = models.Sequential () 

model.add (layers.Conv2D(32, (3, 3), activation='relu', 
input_shape=(150, 150, 3))) 

model.add (layers .MaxPooling2D((2, 2))) 

model.add (layers.Conv2D(64, (3, 3), activation='relu')) 

model.add (layers .MaxPooling2D( (2, 2))) 

model.add (layers.Conv2D(128, (3, 3), activation='relu')) 

model.add (layers .MaxPooling2D((2, 2))) 

model.add (layers.Conv2D(128, (3, 3), activation='relu')) 

model.add (layers .MaxPooling2D( (2, 2))) 
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model.add (layers.Flatten()) 
model.add(layers.Dense(512, activation='relu')) 
model.add (layers.Dense(1, activation='sigmoid')) 


我 们 来 看 一 下 特征 图 的 维度 如 何 随 着 每 层 变 化 。 


>>> model .summary () 



































Layer (type) Output Shape Param # 
convad 1 (Conv2D) one, 148, 148, 32) 896 
max_pooling2gd_1 (MaxPooling2D) (None, 74, 74, 32) 0 
conv2d_ 2 (Conv2D) (None, 72, 72, 64) 18496 
max_pooling2d 2 (MaxPooling2D) (None, 36, 36, 64) 0 
conv2d 3 (Conv2D) (None, 34, 34, 128) 73856 
max_pooling2dq 3 (MaxPooling2D) (None, 17, 17, 128) 0 
conv2d_4 (Conv2D) (None, 15, 15, 128) 147584 
max_pooling2gd_ 4 (MaxPooling2D) (None, 7, 7, 128) 0 
flatten 1 (Flatten) (None, 6272) 0 
dense_1 (Dense) (None, 512) 3211776 
dense_2 (Dense) (None, 1) 513 


Total paramss S5453,121 
Trainable params: 3,453,121 
Non-trainable params: 0 


在 编译 这 一 步 ， 和 前 面 一 样 ， 我 们 将 使 用 RMSprop 优化 器 。 因 为 网 络 最 后 一 层 是 单一 sigmoid 
单元 ， 所 以 我 们 将 使 用 二 元 交叉 炉 作 为 损失 函数 (提醒 一 下 ， 表 4-1 列 出 了 各 种 情况 下 应 该 使 
用 的 损失 函数 )。 
代码 清单 5-6 ”配置 模型 用 于 训练 


from keras import optimizers 








model.compile(loss='binary_crossentropy', 
optimizer=optimizers.RMSprop (lr=le-4), 
metrics=['acc']) 


5.2.4 数据 预 处理 


你 现在 已 经 知道 ,将 数据 输入 神经 网 络 之 前 ,应 该 将 数据 格式 化 为 经 过 预 处 理 的 浮 点 数 张 量 。 
现在 ,数据 以 JPEG 文件 的 形式 保存 在 硬盘 中 ， 所 以 数据 预 处 理 步 骤 大 致 如 下 。 
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(1) 读 取 图 像 文件 。 
(2) 将 JPEG 文件 解码 为 RGB 像素 网 格 。 
(3) 将 这 些 像素 网 格 转换 为 浮 点 数 张 量 。 
(4) 将 像素 值 (0~255 范围 内 ) 缩放 到 [0, 1] 区 间 (正如 你 所 知 ， 神 经 网 络 喜 欢 处 理 较 小 的 输 
入 值 )。 
这 些 步 又 可 能 看 起 来 有 点 吓人 ， 但 幸运 的 是 ，Keras 拥有 自动 完成 这 些 步骤 的 工具 。Keras 
有 一 个 图 像 处 理 辅助 工具 的 模块 ， 位 于 keras.preprocessing.image。 特 别 地 ， 它 包含 


ImageDataGenerator 类 ， 可 以 快速 创建 Python 生成 吉 ， 能 够 将 硬盘 上 的 图 像 文 件 自 动 转换 
为 预 处 理 好 的 张 量 批量 。 下 面 我 们 将 用 到 这 个 类 。 








代码 清单 5-7 使 用 ImageDatacenerator 从 目录 中 读 取 图 像 





from keras.preprocessing.image import ImageDataGenerator 


train datagen = ImageDataGenerator (rescale=1./255) | 
2 以 1/2552 
test_datagen = ImageDataGenerator (rescale=1./255) 将 所 有 图 像 乘 以 窒 放 


train generator = train datagen.flow from qirectory ( 


| tain dire, 
目标 目录 target_size-(150，150)， 4 将 所 有 图 像 的 大 小 调整 为 150 X150 
batch_ size=20, 


class_mode='binary') 4 





为 使 用 了 binary_crossentropy 
损失 ， 所 以 需要 用 二 进 制 标签 





validation generator = test datagen.flow from qirectory ( 
validation dir, 
target_size=(150, 150), 
batch_ size=20, 
class_mode='binary') 


理解 Python 生成 器 


Python 生成 器 (Python generator ) 是 一 个 类 似 于 近代 器 的 对 象 ， 一 个 可 以 和 for 
in 运算 符 一 起 使 用 的 对 象 。 生 成 器 是 用 yield 运算 符 来 构造 的 。 
下 面 一 个 生成 器 的 例子 ， 可 以 生成 整数 。 
def generator () : 
1 
while True: 
3 
yield i 


for item in generator(): 
Sen 
Te nn 
break 
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我 们 来 看 一 下 其 中 一 个 生成 器 的 输出 : 它 生 成 了 150 x 150 的 RGB 图 像 [形状 为 (20， 
150，150，3) | 与 二 进 制 标签 [ 形状 为 (20, ) ] 组 成 的 批量 。 每 个 批量 中 包含 20 个 样本 〈 批 
量 大 小 ) 注意 ， 生 成 器 会 不 停 地 生成 这 些 批量 ， 它 会 不 断 循环 目标 文件 夹 中 的 图 像 。 因 此 ， 你 
需要 在 某 个 时 刻 终止 (break ) 迭代 循环 。 


>>> for data batch, labels batch in train generator: 











>>> print('data batch shape:', data _ batch.shape) 
>>> print('labels batch shape:', labels_ batch.shape) 
>>> break 


data batch shape: (20, 150, 150, 3) 

labels batch shape: (20,) 

利用 生成 器 ， 我 们 让 模型 对 数据 进行 拟 合 。 我 们 将 使 用 fit_generator 方法 来 拟 合 ， 它 
在 数据 生成 器 上 的 效果 和 fit 相同 。 它 的 第 一 个 参数 应 该 是 一 个 Python 生成 器 ， 可 以 不 停 地 生 
成 输入 和 目标 组 成 的 批量 ， 比 如 train_generator。 因 为 数据 是 不 断 生 成 的 ， 所 以 Keras 模型 
要 知道 每 一 轮 需要 从 生成 器 中 抽取 多 少 个 样本 。 这 是 steps_per_epoch 参数 的 作用 : 从 生成 
器 中 抽取 steps_per_epoch 个 批量 后 ( 即 运行 了 steps_per_epoch 次 梯度 下 降 )， 拟 合 过 程 
将 进入 下 一 个 轮 次 。 本 例 中 ， 每 个 批量 包含 20 个 样本 ， 所 以 读 取 完 所 有 2000 个 样本 需要 100 
个 批量 。 

使 用 fit_generator 时 ,你 可 以 传人 一 个 valiqation data 参数 ， 其 作用 和 在 fit 方 
法 中 类 似 。 值 得 注意 的 是 ， 这 个 参数 可 以 是 一 个 数据 生成 器 ， 但 也 可 以 是 Numpy 数组 组 成 的 元 
组 。 如 果 向 valiaation_dqata 传人 一 个 生成 器 ， 那 么 这 个 生成 器 应 该 能 够 不 停 地 生成 验证 数 
据 批量 ， 因 此 你 还 需要 指定 validation_steps 参数 ， 说 明 需 要 从 验证 生成 器 中 抽取 多 少 个 批 
次 用 于 评估 。 





代码 清单 5-8 “利用 批量 生成 器 拟 合 模型 





history = modqel1.fit_generator ( 
train generator, 
steps_per_epoch=100, 
epochs=30,， 
validation data=validation generator, 
validation_steps=50) 


始终 在 训练 完成 后 保存 模型 ， 这 是 一 种 良好 实践 。 
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代码 清单 5-9 ”保存 模型 


model.save('cats_angd dogs_small_ 1.h5') 
我 们 来 分 别 绘制 训练 过 程 中 模型 在 训练 数据 和 验证 数据 上 的 损失 和 精度 ( 见 图 5-9 和 图 5-10 )。 
代码 清单 5-10 ”绘制 训练 过 程 中 的 损失 曲线 和 精度 曲线 








import matplotlib.pyplot as plt 


acc = history.history['acc'] 
val_acc = history.history['val_acc'] 
loss = history.history['loss' 
val_loss = history.history['val_ loss'] 





epochs = rangel(1, lenl(lacc) + 1) 


plt.plot (epochs, acc, 'bo', label='Training acc') 
plt.plot (epochs, val_acc, 'b', label='Validation acc') 
plt.title('Training and validation accuracy') 
plt.legengd() 

plt.figurel() 

plt.plot (epochs, loss, 'bo', label='Training loss') 
plt.plot (epochs, val_loss, 'b', label='Validation loss') 
plt.title('Training and validation loss') 

plt.legend() 

plt.show() 





Training and validation accuracy 
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图 5-9 训练 精度 和 验证 精度 
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Training and validation loss 
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5-10 训练 损失 和 验证 损失 


从 这 些 图 像 中 都 能 看 出 过 拟 合 的 特征 。 训 练 精度 随 着 时 间 线 性 增加 ， 直 到 接近 100% ， 而 验 
证 精度 则 停留 在 70%~72%。 验 证 损失 仅 在 5 轮 后 就 达到 最 小 值 ， 然 后 保持 不 变 ， 而 训练 损失 则 
一 直线 性 下 降 ， 直 到 接近 于 0。 

因为 训练 样本 相对 较 少 (2000 个 )， 所 以 过 拟 合 是 你 最 关心 的 问题 。 前 面 已 经 介绍 过 几 种 
降低 过 拟 合 的 技巧 ， 比 如 dropout 和 权重 衰减 〈L2 正则 化 )。 现 在 我 们 将 使 用 一 种 针对 于 计算 
机 视觉 领域 的 新 方法 ， 在 用 深度 学 习 模 型 处 理 图 像 时 几乎 都 会 用 到 这 种 方法 ， 它 就 是 数据 增强 


(data augmentation )。 


5.2.5 ”使 用 数据 增强 


过 拟 合 的 原因 是 学 习 样 本 太 少 ， 导 致 无 法 训练 出 能 够 泛 化 到 新 数据 的 模型 。 如 果 拥 有 无 限 
的 数据 ， 那 么 模型 能 够 观察 到 数据 分 布 的 所 有 内 容 ， 这 样 就 永远 不 会 过 拟 合 。 数 据 增强 是 从 现 
有 的 训练 样本 中 生成 更 多 的 训练 数据 ， 其 方法 是 利用 多 种 能 够 生成 可 信和 图 像 的 随机 变换 来 增加 
(Caugment ) 样本 。 其 目标 是 ， 模 型 在 训练 时 不 会 两 次 查看 完全 相同 的 网 像 。 这 让 模型 能 够 观察 
到 数据 的 更 多 内 容 ， 从 而 具有 更 好 的 泛 化 能 力 。 

在 Keras 中 ， 这 可 以 通过 对 ImageDataGenerator 实例 读 取 的 图 像 执 行 多 次 随机 变换 来 实 
现 。 我 们 先 来 看 一 个 例子 。 











代码 清单 5-11 利用 ImageDataGenerator 来 设置 数据 增强 





datagen = ImageDataGenerator ( 
rotation range=40, 
width_ shift_ range=0.2, 
height_shift range=0.2, 
Shear_range=0.2， 
Zoom_range=0.2， 
horizontal_flip=True, 
fill mode='nearest') 
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里 只 选择 了 几 个 参数 ( 想 了 解 更 多 参数 ， 请 查阅 Keras 文档 )。 我 们 来 快速 介绍 一 下 这 些 
参数 的 含义 。 

口 rotation_range 是 角度 值 (在 0~180 范围 内 )， 表 示 图 像 随机 旋转 的 角度 范围 。 

D width_shift 和 height_shift 是 图 像 在 水 平 或 垂直 方向 上 平移 的 范围 (相对 于 总 宽 
度 或 总 高 度 的 比例 )。 

口 shear_range 是 随机 错 切 变换 的 角度 。 

口 zoom_range 是 图 像 随 机 缩放 的 范围 。 

口 horizontal_flip 是 随机 将 一 半 图 像 水 平 翻 转 。 如 果 没 有 水 平 不 对 称 的 假设 ( 比如 真 
实 世 界 的 图 像 )， 这 种 做 法 是 有 意义 的 。 

口 fi11_mode 是 用 于 填充 新 创建 像素 的 方法 ,这 些 新 像素 可 能 来 自 于 旋转 或 宽度 /高 度 平移 。 

我 们 来 看 一 下 增强 后 的 图 像 ( 见 图 5-11 )。 
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图 5-11 通过 随机 数据 增强 生成 的 猫 图 像 


代码 清单 5-12 ”显示 几 个 随机 增强 后 的 训练 图 像 





from keras.preprocessing import image 
图 像 预 处 理 
fnames = [os.path.join(train cats_dir, fname) for 工具 的 模块 


fname in os.listdir(train cats_dir)] 
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img_path = fnames[3] < 一 选择 一 张 图 像 进行 增强 


img = image.loagd_img (img_path,，target_size=(150，150)) < 一 读 取 图 像 并 调整 大 小 


X = image.img_to_array (img) < 一 将 其 转换 为 形状 (150，150，3) 的 Numpy 数组 
X = xX.reshape((1,) + x.shape) < 一 将 其 形状 改变 为 (L1，150，150，3) 


1 二. 人 @ 

for batch in datagen.flow(x, batch size=1): 
plt.figure(i) 生成 随机 变换 后 的 图 像 批量 。 
imgplot = plt.imshow(image.array_to_img (batch[0])) 循环 是 无 限 的 ， 因 此 你 需 


tt | 在 某 个 时 刻 终止 循环 


plt.show!() 


如 果 你 使 用 这 种 数据 增强 来 训练 一 个 新 网 络 ， 那 么 网 络 将 不 会 两 次 看 到 同样 的 输入 。 但 网 
络 看 到 的 输入 仍然 是 高 度 相 关 的 ， 因 为 这 些 输入 都 来 自 于 少量 的 原始 图 像 。 你 无 法 生成 新 信息 ， 
而 只 能 混合 现 有 信息 。 因 此 ， 这 种 方法 可 能 不 足以 完全 消除 过 拟 合 。 为 了 进一步 降低 过 拟 合 ， 
你 还 需要 向 模型 中 添加 一 个 Dropout 层 ， 添 加 到 密集 连接 分 类 器 之 前 。 








代码 清单 5-13 ”定义 一 个 包含 dropout 的 新 卷 积 神经 网 络 


model = models.Sequential () 








model.add (layers.Conv2D(32, (3, 3), activation='relu', 
input_shape=(150, 150, 3))) 

model.add (layers .MaxPooling2D( (2, 2))) 
model.add(layers.Conv2D(64, (3, 3), activation='relu')) 
model.add (layers.MaxPooling2D( (2, 2))) 
model.add (layers.Conv2D(128, (3, 3), activation='relu')) 
model.add (layers.MaxPooling2D((2, 2))) 
model.add(layers.Conv2D(128, (3, 3), activation='relu’')) 
model.add (layers.MaxPooling2D((2, 2))) 

( 

( 

( 

( 





model.add (layers.Flatten()) 

model.add (layers .Dropout (0.5)) 

model.add (layers.Dense(512, activation='relu')) 
model.add (layers.Dense(1, activation='sigmoid')) 





model.compile(loss='binary_crossentropy', 
optimizer=optimizers.RMSprop (lr=1le-4), 
metriess[ EGG ]) 


我 们 来 训练 这 个 使 用 了 数据 增强 和 dropout 的 网 络 。 
代码 清单 5-14 “利用 数据 增强 生成 器 训 练 卷 积 神经 网 络 





train datagen = ImageDataGenerator ( 
rescale=1./255, 
rotation range=40, 
width_ shift_ range=0.2, 
height_shift_ range=0.2, 
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Shear_range=0.2， 
Zoom_range=0.2， 
horizontal_flip=True,) 


test_datagen = ImageDataGenerator (rescale=1./255) ”< 一 注意 ,不 能 增强 验证 数据 
train generator = train datagen.flow from _ qirectory ( 
二 tALn di 
目标 目录 target_size=(150，150)， < 一 将 所 有 图 像 的 大 小 调整 为 150 X150 


batch_ size=32, 
class_mode='binary') 4 





为 使 用 了 binary_crossentropy 
validation_generator = test_datagen.flow_from directory( | 损失 ， 所 以 需要 用 二 进 制 标签 
validation dir, 
target_size=(150, 150), 
batch size=32, 
class_mode='binary') 


history = model.fit generator!( 
train generator, 
steps_per_epoch=100, 
epochs=100, 
validation data=validation generator, 
validation_ steps=50) 


我 们 把 模型 保存 下 来 ， 你 会 在 5.4 节 用 到 它 。 
代码 清单 5-15 ”保存 模型 


model.save('cats_and_ dogs_small_2.h5') 
我 们 再 次 绘制 结果 ( 见 图 5-12 和 图 5-13 )。 使 用 了 数据 增强 和 dropout 之 后 ,模型 不 再 过 拟 合 : 
训练 曲线 紧 紧 跟 随 着 验证 曲线 。 现 在 的 精度 为 82% , 比 未 正则 化 的 模型 提高 了 15% ( 相对 比例 )。 
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Training and validation loss 
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图 5-13 采用 数据 增强 后 的 训练 损失 和 验证 损失 


通过 进一步 使 用 正则 化 方法 以 及 调节 网 络 参 数 (比如 每 个 卷 积 层 的 过 滤器 个 数 或 网 络 中 的 
层 数 ), 你 可 以 得 到 更 高 的 精度 ,可 以 达到 86% 或 87%。 但 只 靠 从 头 开 始 训练 自己 的 卷 积 神经 网 络 ， 
再 想 提高 精度 就 十 分 困难 ， 因 为 可 用 的 数据 太 少 。 想 要 在 这 个 问题 上 进一步 提高 精度 ， 下 一 步 
需要 使 用 预 训练 的 模型 ， 这 是 接 下 来 两 节 的 重点 。 


5.3 ”使 用 预 训练 的 卷 积 神经 网 络 


想 要 将 深度 学 习 应 用 于 小 型 图 像 数 据 集 ， 一 种 常用 且 非 常 高 效 的 方法 是 使 用 预 训练 网 络 。 
预 训 练 网 络 〈( pretrained network ) 是 一 个 保存 好 的 网 络 ， 之 前 已 在 大 型 数据 集 (通常 是 大 规模 图 
像 分 类 任务 ) 上 训练 好 。 如 果 这 个 原始 数据 集 足 够 大 且 足 够 通用 ， 那 么 预 训练 网 络 学 到 的 特征 
的 空间 层次 结构 可 以 有 效 地 作为 视觉 世界 的 通用 模型 ， 因 此 这 些 特征 可 用 于 各 种 不 同 的 计算 机 
视觉 问题 ， 即 使 这 些 新 间 题 涉及 的 类 别 和 原始 任务 完全 不 同 。 举 个 例子 ， 你 在 ImageNet 上 训练 
了 一 个 网 络 ( 其 类 别 主要 是 动物 和 日 常用 品 )， 然 后 将 这 个 训练 好 的 网 络 应 用 于 某 个 不 相干 的 任 
务 ， 比 如 在 图 像 中 识别 家 具 。 这 种 学 到 的 特征 在 不 同 问题 之 间 的 可 移植 性 ， 是 深度 学 习 与 许多 
早期 浅 层 学 习 方 法 相 比 的 重要 优势 ， 它 使 得 深度 学 习 对 小 数据 问题 非常 有 效 。 

本 例 中 ,假设 有 一 个 在 ImageNet 数据 集 ( 140 万 张 标记 图 像 ，1000 个 不 同 的 类 别 ) 上 训练 
好 的 大 型 卷 积 神经 网 络 。ImageNet 中 包含 许多 动物 类 别 ， 其 中 包括 不 同 种 类 的 猫 和 狗 ， 因 此 可 
以 认为 它 在 猫 狗 分 类 问题 上 也 能 有 良好 的 表现 。 

我 们 将 使 用 VGG16 架构 , 它 由 Karen Simonyan 和 Andrew Zisserman 在 2014 年 开发 了 。 对 于 
ImageNet， 它 是 一 种 简单 而 又 广泛 使 用 的 卷 积 神经 网 络 架 构 。 虽 然 VGG16 是 一 个 比较 旧 的 模 
型 ， 性 能 远 比 不 了 当前 最 先进 的 模型 ， 而 且 还 比 许多 新 模型 更 为 复杂 ， 但 我 之 所 以 选择 它 ， 是 
为 它 的 架构 与 你 已 经 熟悉 的 架构 很 相似 ， 因 此 无 须 引 入 新 概念 就 可 以 很 好 地 理解 。 这 可 能 是 

































































GD 参见 Karen Simonyan 和 Andrew Zisserman 于 2014 年 发 表 的 文章 “Very deep convolutional networks for large-scale image 
Tecognition 。 
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你 第 一 次 遇 到 这 种 奇怪 的 模型 名 称 
你 会 习惯 这 些 名 称 的 ， 因 为 如 果 你 一 直 用 深度 学 习 做 计算 机 视觉 的 话 ， 它 们 会 频繁 出 现 。 











VGG、 ResNet、 Inception、 Inception-ResNet、Xception 等 。 


使 用 预 训练 网 络 有 两 种 方法 : 特征 提取 (feature extraction ) 和 微调 模型 ( fine-tuning )。 两 


种 方法 我 们 都 会 介绍 。 首 先 来 看 特征 提取 。 





5.3.1 ”特征 提取 


特征 提取 是 使 用 之 前 网 络 学 到 的 表示 来 从 新 样本 中 提取 出 有 趣 的 特征 。 然 后 将 这 些 特 
入 一 个 新 的 分 类 咒 ， 从 头 开始 训练 。 




















征 输 


如 前 所 述 ， 用 于 图 像 分 类 的 卷 积 神经 网 络 包含 两 部 分 : 首先 是 一 系列 池 化 层 和 卷 积 层 ， 了 最 
经 网 
络 而 言 ， 特 征 提取 就 是 取出 之 前 训练 好 的 网 络 的 卷 积 基 ， 在 上 面 运行 新 数据 ， 然 后 在 输出 上 面 





























后 是 一 个 密集 连接 分 类 器 。 第 一 部 分 叫 作 模 型 的 卷 积 基 ( convolutional base )。 对 于 卷 积 神 











训练 一 个 新 的 分 类 器 ( 见 图 5-14 )。 
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训练 好 的 训练 妈 好 的 新 分 类 器 
分 类 器 类 器 (随机 初始 化 ) 
t t t 
训练 好 的 训练 好 的 训练 好 的 
卷 积 基 卷 积 基 卷 积 基 
(冻结 ) 
人 4 4 
输入 输入 输入 











图 5-14 保持 卷 积 基 不 变 ， 改 变 分 类 器 





为 什么 仅 重 复 使 用 卷 积 基 ?7 我 们 能 和 否 也 重复 使 用 密集 连接 分 类 器 ? 一 般 来 说 ， 应 该 避免 这 
么 做 。 原 因 在 于 卷 积 基 学 到 的 表示 可 能 更 加 通用 ， 因 此 更 适合 重复 使 用 。 卷 积 神经 网 络 的 特征 




















图 表示 通用 概念 在 图 像 中 是 否 存在 ， 无 论 面 对 什 么 样 的 计算 机 视觉 问题 ， 这 种 特征 图 都 可 
































会 EC1 


BE 


展 
有 用 。 但 是 ， 分 类 融 学 到 的 表示 必然 是 针对 于 模型 训练 的 类 别 ， 其 中 仅 包含 某 个 类 别 出 现 在 整 
张 图 像 中 的 概率 信息 。 此 外 ， 密 集 连 接 层 的 表示 不 再 包含 物体 在 输入 图 像 中 的 位 置信 息 。 密 集 





连接 层 舍弃 了 空间 的 概念 ， 而 物体 位 置信 息 仍然 由 卷 积 特征 图 所 描述 。 如 果 物 体位 置 对 于 问题 














很 重要 ， 那么 密集 连接 层 的 特征 在 很 大 程度 上 是 无 用 的 。 





























注意 ， 某 个 卷 积 层 提取 的 表示 的 通用 性 〈 以 及 可 复 用 性 ) 取决 于 该 层 在 模型 中 的 深度 。 模 
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型 中 更 靠近 底部 的 层 提取 的 是 局 部 的 、 高 度 通用 的 特征 图 ( 比如 视觉 边缘 、 颜 色 和 纹理 )， 而 更 
靠近 顶部 的 层 提取 的 是 更 加 抽象 的 概念 ( 比如 “ 猫 耳 打 ”或 “ 狗 眼睛 ” )。 因此 , 如 果 你 的 新 数 
据 集 与 原始 模型 训练 的 数据 集 有 很 大 差异 ， 那 么 最 好 只 使 用 模型 的 前 几 层 来 做 特征 提取 ， 而 不 
是 使 用 整个 卷 积 基 。 

本 例 中 ， 由 于 ImageNet 的 类 别 中 包含 多 种 狗 和 猫 的 类 别 ， 所 以 重复 使 用 原始 模型 密集 连接 
层 中 所 包含 的 信息 可 能 很 有 用 。 但 我 们 选择 不 这 么 做 ， 以 便 涵 盖 新 间 题 的 类 别 与 原始 模型 的 类 
别 不 一 致 的 更 一 般 情 况 。 我 们 来 实践 一 下 ， 使 用 在 ImageNet 上 训练 的 VGG16 网 络 的 卷 积 基 从 
猫 狗 图 像 中 提取 有 趣 的 特征 ， 然 后 在 这 些 特征 上 训练 一 个 猎狗 分 类 器 。 

VGG16 等 模型 内 置 于 Keras 中 。 你 可 以 从 keras.applications 模块 中 导入 。 下 面 是 
keras .applications 中 的 一 部 分 图 像 分 类 模型 ( 都 是 在 ImageNet 数据 集 上 预 训练 得 到 的 ) : 
口 Xception 
口 mception V3 
口 ResNet50 
DVGGI6 
DVGGI9 
口 MobileNet 
我 们 将 YGG16 模型 实例 化 。 











清单 5-16 将 VGG16 卷 积 基 实 例 化 


from keras.applications import VGG16 





conv_base = VGG16 (weights='imagenet', 
include top=False, 
input_shape=(150, 150, 3)) 


这 里 向 构造 函数 中 传人 了 三 个 参数 。 

口 weights 指定 模型 初始 化 的 权重 检查 点 。 

D include_top 指定 模型 最 后 是 否 包 含 密集 连接 分 类 器 。 默 认 情 况 下 ， 这 个 密集 连接 分 
类 器 对 应 于 ImageNet 的 1000 个 类 别 。 因 为 我 们 打算 使 用 自己 的 密集 连接 分 类 絮 ( 只 有 
两 个 类 别 : cat 和 dog )， 所 以 不 需要 包含 它 。 

口 input_shape 是 输入 到 网 络 中 的 图 像 张 量 的 形状 。 这 个 参数 完全 是 可 选 的 ， 如 果 不 传 
入 这 个 参数 ,那么 网 络 能 够 处 理 任意 形状 的 输入 。 

VGG16 卷 积 基 的 详细 架构 如 下 所 示 。 它 和 你 已 经 熟悉 的 简单 卷 积 神经 网 络 很 相似 。 


>>> conv_base.summary () 








Layer (type) Output Shape Param # 


input_1 (InputLayer) (None, 150, 150, 3) 0 




















还 
兽 
二 








G@) 这 里 更 靠近 底部 的 层 是 指 在 定义 模型 时 先 添加 到 模型 中 的 层 ， 而 更 靠近 顶部 的 层 则 是 后 添加 到 模型 中 以 
同 。 译 者 注 
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block1_conv1lL (Conv2D) (None, 150, 150, 64) L792 
block1_conv2 (Conv2D) (None, 150, 150, 64) 36928 
blockl pool (MaxPooling2D) (None, 75, 75, 64) 0 
block2_convl (Conv2D) (None, 75, 75, 128) 73856 
block2_conv2 (Conv2D) (None, 75, 75, 128) 147584 
block2_pool (MaxPooling2D) (None, 37, 37, 128) 0 
block3_convl1 (Conv2D) (None, 37, 37, 256) 295168 
block3_conv2 (Conv2D) (None, 37, 37, 256) 590080 
block3_conv3 (Conv2D) (Nones 37, 37;, 256) 590080 
block3_pool (MaxPooling2D) (None, 18, 18, 256) 0 
block4_convl (Conv2D) (None, 18, 18, 512) 1180160 
block4_conv2 (Conv2D) (None, 18, 18, 512) 2359808 
block4_conv3 (Conv2D) (None, 18, 18, 512) 2359808 
block4_ pool (MaxPooling2D) (None, 9, 9, 512) 0 
block5_convl (Conv2D) (None, 9, 9, 512) 2359808 
block5_conv2 (Conv2D) (None, 9, 9, 512) 2359808 
block5_conv3 (Conv2D) (None, 9, 9, 512) 2359808 
block5_pool (MaxPooling2D) (None, 4, 4, 512) 0 











Total params: 14,714,688 
Trainable params: 14,714,688 
Non-trainable params: 0 


最 后 的 特征 图 形状 为 (4，4，512)。 我们 将 在 这 个 特征 上 添加 一 个 密集 连接 分 类 器 。 

接 下 来 ， 下 一 步 有 两 种 方法 可 供 选 择 。 

口 在 你 的 数据 集 上 运行 卷 积 基 ， 将 输出 保存 成 硬盘 中 的 Numpy 数组 ， 然 后 用 这 个 数据 作 
为 输入 ， 输 入 到 独立 的 密集 连接 分 类 器 中 ( 与 本 书 第 一 部 分 介绍 的 分 类 器 类 似 )。 这 种 
方法 速度 快 ， 计 算 代 价 低 ， 因 为 对 于 每 个 输入 图 像 只 需 运行 一 次 卷 积 基 ， 而 卷 积 基 是 目 
前 流程 中 计算 代价 最 高 的 。 但 出 于 同样 的 原因 ， 这 种 方法 不 允许 你 使 用 数据 增强 。 

口 在 顶部 添加 Dense 层 来 扩展 已 有 模型 ( 即 conv_pase )， 并 在 输入 数据 上 端 到 端 地 运行 
整个 模型 。 这 样 你 可 以 使 用 数据 增强 ， 因 为 每 个 输入 图 像 进入 模型 时 都 会 经 过 卷 积 基 。 
但 出 于 同样 的 原因 ， 这 种 方法 的 计算 代价 比 第 一 种 要 高 很 多 。 
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这 两 种 方法 我 们 都 会 介绍 。 首 先 来 看 第 一 种 方法 的 代码 : 保存 你 的 数据 在 conv_base 中 的 
输出 ， 然 后 将 这 些 输 出 作为 输入 用 于 新 模型 。 


1. 不 使 用 数据 增强 的 快速 特征 提取 
首先 ， 运 行 ImageDataGenerator 实例 ， 将 图 像 及 其 标签 提取 为 Numpy 数组 。 我 们 需要 





调用 conv_pase 模型 的 predict 方法 来 从 这 些 图 像 中 提取 特征 。 
代码 清单 5-17 使 用 预 训 练 的 卷 积 基 提 取 特 征 





import os 
import numpy as np 
from keras.preprocessing.image import ImageDataGenerator 


base dir = '/Users/fchollet/Downloads/cats_and dogs_small' 
train_dir = os.path.join(base dir, 'train') 
validation dir = os.path.join(base dir, 'validation') 
test_dir = os.path.join(base dir, 'test') 


datagen = ImageDataGenerator (rescale=1./255) 
batch_ size = 20 


def extract_features (directory, sample_count): 
features = np.zeros (shape=(sample_ count, 4, 4, 512)) 
labels = np.zZeros (shape=(sample_count)) 
generator = datagen.flow from directory( 





directory, 

target_size=(150, 150), 

batch_size=batch_size, 注意 ， 这 些 生成 器 在 循环 中 不 断 

class_mode='binary') 生成 数据 ， 所 以 你 必须 在 读 取 完 
i 
for inputs_batch, labels_ batch in generator: 所 有 图 像 后 终止 循环 

features_batch = conv_base.predict (inputs_batchy) 

features[i * batch size : (i + 1) * batch size] = features_batch 

labels[i * batch size : (i + 1) * batch size] = labels_ batch 

i += 1 

if i * batch _ size >= sample_count: 

break 4 








return features, labels 


train features, train labels = extract_features (train dir, 2000) 
validation_ features, validation labels = extract_ features(validation dir, 1000) 
test_features, test_labels = extract_features (test_dir, 1000) 


目前 ,提取 的 特征 形状 为 (samples，4，4，512)。 我们 要 将 其 输入 到 密集 连接 分 类 器 中 ， 
所 以 首先 必须 将 其 形状 展 平 为 (samples，8192) 。 


train_ features = np.reshape (train features, (2000, 4 * 4 * 512)) 
validation features = np.reshape(validation features, (1000, 4 * 4 * 512)) 
test_features = np.reshape(test_features, (1000, 4 * 4 * 512)) 


现在 你 可 以 定义 你 的 密集 连接 分 类 器 ( 注意 要 使 用 dropout 正则 化 )， 并 在 刚刚 保存 的 数据 
和 标签 上 训练 这 个 分 类 骨 。 
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定义 并 训练 密集 连接 分 类 器 


from keras import models 
from keras import layers 
from keras import optimizers 


model = models.Sequential () 

model.add (layers.Dense(256, activation='relu', input dim=4 * 4 * 512)) 
model.add (layers.Dropout (0.5)) 

model.add (layers.Dense(1, activation='sigmoid')) 


model .compile(optimizer=optimizers.RMSprop (lr=2e-5), 
loss='binary_crossentropy', 
metrics=["'ace"]) 


history = model.fit(train features, train labels, 
epochs=30, 
batch_ size=20, 
validation data=(validation features, validation _ labels)) 


训练 速度 非常 快 ， 因 为 你 只 需 处 理 两 个 Dense 层 。 即 使 在 CPU 上 运行 ， 每 轮 的 时 间 也 不 
到 一 秒 钟 。 
我 们 来 看 一 下 训练 期 间 的 损失 曲线 和 精度 曲线 ( 见 图 5-15 和 图 5-16 )。 


代码 清单 5-19 ”绘制 结果 





import matplotlib.pyplot as plt 


acc = history.history['acc'] 
val_acc = history.history['val_acc'] 
loss = history.history['loss' 
val_loss = history.history['val_ loss'] 





epochs = range(1, lenl(lacc) + 1) 


plt.plot (epochs, acc, 'bo', label='Training acc') 
plt.plot (epochs, val_acc, 'b', label='Validation acc') 
plt.title('Training and validation accuracy') 
plt.legend() 

plt.figurel() 

plt.plot (epochs, loss, 'bo', label='Training loss') 
plt.plot (epochs, val_ loss, 'b', label='Validation loss') 
plt.title('Training and validation loss') 

plt.legend() 

plt.show!() 
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Training and validation accuracy 
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图 5-15 简单 特征 提取 的 训练 精度 和 验证 精度 


Training and validation loss 
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图 5-16 简单 特征 提取 的 训练 损失 和 验证 损失 


我 们 的 验证 精度 达到 了 约 90%， 比 上 一 节 从 头 开始 训练 的 小 型 模型 效果 要 好 得 多 。 但 从 图 
中 也 可 以 看 出 ， 昌 然 dropout 比率 相当 大 ， 但 模型 几乎 从 一 开始 就 过 拟 合 。 这 是 因为 本 方法 没有 


使 用 数据 增强 ， 而 数据 增强 对 防止 小 型 图 像 数据 集 的 过 拟 合 非常 重要 。 

2. 使 用 数据 增强 的 特征 提取 

下 面 我 们 来 看 一 下 特征 提取 的 第 二 种 方法 ， 它 的 速度 更 慢 ， 计 算 代价 更 高 ， 但 在 训练 期 间 
可 以 使 用 数据 增强 。 这 种 方法 就 是 : 扩展 conv_base 模型 ， 然 后 在 输入 数据 上 端 到 端 地 运行 模型 。 








注意 本 方法 计算 代价 很 高 ， 只 在 有 GPU 的 情况 下 才能 尝试 运行 。 它 在 CPU 上 是 绝对 难以 运 
行 的 。 如 果 你 无 法 在 GPU 上 运行 代码 ， 那 么 就 采用 第 一 种 方法 。 
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模型 的 行为 和 层 类 似 ， 所 以 你 可 以 向 Sequential 模型 中 添加 一 个 模型 ( 比如 conv_base )， 
就 像 添加 一 个 层 一 样 。 


代码 清单 5-20 ”在 卷 积 基 上 添加 一 个 密集 连接 分 类 带 
from keras import models 
from keras import layers 





model = models.Sequential () 

model.add (conv_base) 

model.add (layers.Flatten()) 

model.add (layers.Dense(256, activation='relu')) 
model.add (layers.Dense(1, activation='sigmoid')) 


现在 模型 的 架构 如 下 所 示 。 


>>> model .summary () 














Layer (type) Output Shape Param # 
vagi6 (Wodel) (None, dd 512) 14714688 
flatten,1 (Flatten) (None, 8192) 0 

dense_1 (Dense) (None, 256) 2097408 
dense_2 (Dense) (None, 1) 257 


Total params: 二 6 .812，353 
Trainable params: 16,812,353 
Non-trainable params: 0 


如 你 所 见 ，VGG16 的 卷 积 基 有 14 714 688 个 参数 ， 非 常 多 。 在 其 上 添加 的 分 类 器 有 200 万 
个 参数 。 

在 编译 和 训练 模型 之 前 ， 一 定 要 “冻结 ” 卷 积 基 。 冻 结 ( freeze ) 一 个 或 多 个 层 是 指 在 训练 
过 程 中 保持 其 权重 不 变 。 如 果 不 这 么 做 ,那么 卷 积 基 之 前 学 到 的 表示 将 会 在 训练 过 程 中 被 修改 。 
因为 其 上 添加 的 pense 层 是 随机 初始 化 的 ， 所 以 非常 大 的 权重 更 新 将 会 在 网 络 中 传播 ， 对 之 前 
学 到 的 表示 造成 很 大 破坏 。 

在 Keras 中 ， 冻 结 网 络 的 方法 是 将 其 trainable 属性 设 为 False。 


>>> PITInL('This is the number of trainable weights ' 
'before freezing the conv base:', len(model.trainable weights)) 
This is the number of trainable weights before freezing the conv base: 30 
>>> conv_base.trainable = False 
>>> print ('This is the number of trainable weights ' 
'after freezing the conv base:', len(model.trainable weights)) 
This is the number of trainable weights after freezing the conv base: 4 


如 此 设置 之 后 ， 只 有 添加 的 两 个 Dense 层 的 权重 才 会 被 训练 。 总 共有 4 个 权重 张 量 ， 每 层 
2 个 〈 主 权重 矩阵 和 偏 置 向 量 )。 注意， 为 了 让 这 些 修改 生效 ， 你 必须 先 编译 模型 。 如 果 在 编译 
之 后 修改 了 权重 的 trainable 属性 ， 那 么 应 该 重新 编译 模型 ， 否 则 这 些 修改 将 被 忽略 。 
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现在 你 可 以 开始 训练 模型 了 ， 使 用 和 前 一 个 例子 相同 的 数据 增强 设置 。 
代码 清单 5-21 利用 冻结 的 卷 积 基 端 到 端 地 训练 模型 





from keras.preprocessing.image import ImageDataGenerator 
from keras import optimizers 


train datagen = ImageDataGenerator!( 
rescale=1./255, 
rotation range=40, 
width_ shift range=0.2, 
height_shift range=0.2, 
Shear_range=0.2， 
Zoom_range=0.2， 
horizontal_flip=True, 
fill mode='nearest') 


test_datagen = ImageDataGenerator (rescale=1./255) < 一 注意 ， 不 能 增强 验证 数据 


train generator = train datagen.flow from _ qirectory ( 
train dir, 
目标 目录 target_size=(150，150)， ”< 一 将 所 有 图 像 的 大 小 调整 为 150X 150 
batch_size=20, 
class_mode='binary') 4 





为 使 用 了 binary_crossentropy 
validation generator = test_ datagen.flow_ from _ qirectory ( 损失 ， 所 以 需要 用 二 进 制 标 签 


validation _ dir, 

target_size=(150, 150), EE 
batch_size=20, 

class_mode='binary') 


model.compile(loss='binary_crossentropy', 
optimizer=optimizers.RMSprop (lr=2e-5), 
metrics=['acc']) 


history = model.fit_ generator!( 
train_ generator, 
steps_per_epoch=100, 
epochs=30, 
validation data=validation _ generator, 
validation_steps=50) 


我 们 来 再 次 绘制 结果 ( 见 图 5-17 和 图 5-18 )。 如 你 所 见 ， 验 证 精度 约 为 96%。 这 上 比 从 头 开 
台 训练 的 小 型 卷 积 神经 网 络 要 好 得 多 。 
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图 5-17 带 数 据 增强 的 特征 提取 的 训练 精度 和 验证 精度 


Training and validation loss 
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图 5-18 ” 带 数据 增强 的 特征 提取 的 训练 损失 和 验证 损失 





5.3.2 ”微调 模型 


另 一 种 广泛 使 用 的 模型 复 用 方法 是 模型 微调 ( fine-tuning )， 与 特征 提取 互 为 补充 。 对 于 用 
于 特征 提取 的 冻结 的 模型 基 ， 微 调 是 指 将 其 项 部 的 几 层 “ 解 冻 "， 并 将 这 解冻 的 几 层 和 新 增加 的 
部 分 (本 例 中 是 全 连接 分 类 需 ) 联合 训练 ( 见 图 5-19 )。 之 所 以 叫 作 微 调 ， 是 因为 它 只 是 略微 调 
整 了 所 复 用 模型 中 更 加 抽象 的 表示 ， 以 便 让 这 些 表 示 与 手头 的 问题 更 加 相关 。 
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我 们 也 将 微调 
”3 
图 5-19 ”微调 VGG16 网 络 的 最 后 一 个 卷 积 块 


前 面 说 过 ,冻结 VGG16 的 卷 积 基 是 为 了 能 够 在 上 面 训 练 一 个 随机 初始 化 的 分 类 器 。 同 理 ， 
只 有 上 面 的 分 类 天 已 经 训练 好 了 ， 才 能 微调 卷 积 基 的 顶部 几 层 。 如 果 分 类 需 没 有 训练 好 ， 那 么 
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训练 期 间 通 过 网 络 传播 的 误差 信号 会 特别 大 ， 微 调 的 几 层 之 前 学 到 的 表示 都 会 被 破坏 。 因 此 ， 
微调 网 络 的 步骤 如 下 。 

(1) 在 已 经 训练 好 的 基 网 络 (base network ) 上 添加 自 定义 网 络 。 

(2) 冻结 基 网 络 。 

G) 训练 所 添加 的 部 分 。 

(4) 解冻 基 网 络 的 一 些 层 。 

(5) 联合 训练 解冻 的 这 些 层 和 添加 的 部 分 。 

你 在 做 特征 提取 时 已 经 完成 了 前 三 个 步骤 。 我 们 继续 进行 第 四 步 : 先 解冻 conv_base， 然 
后 冻结 其 中 的 部 分 层 。 

提醒 一 下 ， 卷 积 基 的 架构 如 下 所 示 。 


>>> conv_base.summary () 







































































Layer (type) Output Shape Param # 
Imp (nputteyer {None, 1507 150 3 
blockl_convl (Conv2D) (None, 150, 150, 64) 1792 
blockl_conv2 (Conv2D) (None, 150, 150, 64) 36928 
blockl pool (MaxPooling2D) (None, 75, 75, 64) 0 
block2_convl (Conv2D) (None, 75, 75, 128) 73856 
block2_conv2 (Conv2D) (None, “5, 75, 128) 147584 
block2_pool (MaxPooling2D) (None, 37, 37, 128) 0 
block3_convl (Conv2D) (None, 37, 37, 256) 295168 
block3_conv2 (Conv2D) (Nones 37/;, 377 2356) 590080 
block3_conv3 (Conv2D) (None; 37, 37» 256) 590080 
block3_pool (MaxPooling2D) (None, 18, 18, 256) 0 
block4_convl (Conv2D) (None, 18, 18, 512) 1180160 
block4_conv2 (Conv2D) (None, 18, 18, 512) 2359808 
block4_conv3 (Conv2D) (None, 18, 18, 512) 2359808 
block4 _ pool (MaxPooling2D) (None, 9, 9, 512) 0 
block5_convl (Conv2D) (None, 9, 9, 512) 2359808 
block5_conv2 (Conv2D) (None, 9, 9, 512) 2359808 
block5_conv3 (Conv2D) (None, .9; 9, S12) 2359808 
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block5_pool (MaxPooling2D) (None, 4, 4, 512) 0 


Total params: 14,714,688 
Trainable params: 14,714,688 
Non-trainable params: 0 


我 们 将 微调 最 后 三 个 卷 积 屋 ， 也 就 是 说 ， 直 到 block4_pool 的 所 有 层 都 应 该 被 冻结 ， 而 
block5_conv1、pblock5_conv2 和 block5_conv3 三 层 应 该 是 可 训练 的 。 
为 什么 不 微调 更 多 层 ? 为 什么 不 微调 整个 卷 积 基 ? 你 当然 可 以 这 么 做 ,但 需要 考虑 以 下 几 点 。 
口 卷 积 基 中 更 靠 底 部 的 层 编码 的 是 更 加 通用 的 可 复 用 特征 ， 而 更 靠 顶 部 的 层 编码 的 是 更 专 
业 化 的 特征 。 微 调 这些 更 专业 化 的 特征 更 加 有 用 ， 因 为 它们 需要 在 你 的 新 间 题 上 改变 用 
途 。 微 调 更 靠 底 部 的 层 ， 得 到 的 回报 会 更 少 。 
口 训练 的 参数 越 多 ， 过 拟 合 的 风险 武大 。 卷 积 基 有 1500 万 个 参数 ， 所 以 在 你 的 小 型 数据 
集 上 训练 这 么 多 参数 是 有 风险 的 。 
因此 ， 在 这 种 情况 下 ， 一 个 好 策略 是 仅 微调 卷 积 基 最 后 的 两 三 层 。 我 们 从 上 一 个 例子 结束 
的 地 方 开始 ， 继 续 实现 此 方法 。 





代码 清单 5-22 冻结 直到 某 一 层 的 所 有 层 


conv_base.trainable = True 


set_trainable = False 
for layer in conv_base.layers: 
if layer.name == 'block5_conv1 ' : 
set_trainable = True 
if set_ trainable: 
layer.trainable = True 
else: 
layer.trainable = False 


现在 你 可 以 开始 微调 网 络 。 我 们 将 使 用 学 习 率 非常 小 的 RMSProp 优化 器 来 实现 。 之 所 以 让 
学 习 率 很 小 ， 是 因为 对 于 微调 的 三 层 表示 ， 我 们 希望 其 变化 范围 不 要 太 大 。 太 大 的 权重 更 新 可 


代码 清单 5-23 ”微调 模型 





model.compile(loss='binary_crossentropy', 
optimizer=optimizers.RMSprop (lr=le-5), 
metricessl race"]) 


history = model.fit_ generator!( 
train_ generator, 
steps_per_epoch=100, 
epochs=100, 
validation data=validation generator, 
validation_ steps=50) 


我 们 用 和 前 面 一 样 的 绘图 代码 来 绘制 结果 ( 见 图 5-20 和 图 5-21 )。 
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图 5-21 ”微调 模型 的 训练 损失 和 验证 损失 


这 些 曲线 看 起 来 包含 噪声 。 为 了 让 图 像 更 具 可 读 性 ， 你 可 以 将 每 个 损失 和 精度 都 替换 为 指数 
移动 平均 值 ， 从 而 让 曲线 变 得 平滑 。 下 面 用 一 个 简单 的 实用 函数 来 实现 ( 见 图 5-22 和 图 5-23 )。 








def smooth curve(points, factor=0.8): 
smootheqd points = [] 
for point in points: 
if smoothed points: 
previous = smoothed points[-1] 
smootheqd_ points.append(previous * factor + point * (1 - factor)) 
else: 
smootheqd_points.append (point) 
return smoothed points 


plt .plot (epochs, 
smooth_curve(lacc), 'bo', label='Smoothed training acc') 
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plot (epochs, 


smooth_curve(val_acc), 'b', label='Smoothed validation acc') 
title('Training and validation accuracy') 
legend() 
figure() 


plot (epochs, 
smooth_ curve(loss), 'bo', label='Smoothed training loss') 
plot (epochs, 
smooth_curve(val_loss), 'b', label='Smoothed validation loss') 
title('Training and validation loss') 
legend() 


.Show () 


Training and validation accuracy 
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图 5-22 ”微调 模型 的 训练 精度 和 验证 精度 的 平滑 后 曲线 
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图 5-23 ”微调 模型 的 训练 损失 和 验证 损失 的 平滑 后 曲线 
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验证 精度 曲线 变 得 更 清楚 。 可 以 看 到 ， 精 度 值 提高 了 1%， 从 约 96% 提高 到 97% 以 上 。 
注意 ， 从 损失 曲线 上 看 不 出 与 之 前 相 比 有 任何 真正 的 提高 (实际 上 还 在 变 差 )。 你 可 能 感到 
奇怪 ， 如 果 损 失 没 有 降低 ， 那 么 精度 怎么 能 保持 稳定 或 提高 呢 ? 答案 很 简单 : 图 中 展示 的 是 逐 
点 (pointwise ) 损失 值 的 平均 值 ， 但 影响 精度 的 是 损失 值 的 分 布 ， 而 不 是 平均 值 ， 因 为 精度 是 
模型 预测 的 类 别 概率 的 二 进 制 阔 值 。 即 使 从 平均 损失 中 无 法 看 出 ， 但 模型 也 仍然 可 能 在 改进 。 
现在 ， 你 可 以 在 测试 数据 上 最 终 评 佑 这 个 模型 。 


test_generator = test_ datagen.flow from _ qirectory ( 
test_dir, 
target_size=(150, 150), 
batch_ size=20, 
class_mode='binary') 








test_loss, test_acc = model.evaluate generator(test_ generator, steps=50) 
print('test acc:', test_acc) 


我 们 得 到 了 97% 的 测试 精度 。 在 关于 这 个 数据 集 的 原始 Kaggle 竞赛 中 ， 这 个 结果 是 最 佳 
结果 之 一 。 但 利用 现代 深度 学 习 技 术 ， 你 只 用 一 小 部 分 训练 数据 ( 约 10% ) 就 得 到 了 这 个 结果 。 
训练 20 000 个 样本 与 训练 2000 个 样本 是 有 很 大 差别 的 ! 











5.3.3 小结 


下 面 是 你 应 该 从 以 上 两 节 的 练习 中 学 到 的 要 点 。 

口 卷 积 神 经 网 络 是 用 于 计算 机 视觉 任务 的 最 佳 机 顺 学 习 模 型 。 即 使 在 非常 小 的 数据 集 上 也 

可 以 从 头 开始 训练 一 个 卷 积 神 经 网 络 ， 而 且 得 到 的 结果 还 不 错 。 

口 在 小 型 数据 集 上 的 主要 问题 是 过 拟 合 。 在 处 理 图 像 数 据 时 ， 数 据 增强 是 一 种 降低 过 拟 合 

的 强大 方法 。 

口 利用 特征 提取 ， 可 以 很 容易 将 现 有 的 卷 积 神经 网 络 复 用 于 新 的 数据 集 。 对 于 小 型 图 像 数 

据 集 ， 这 是 一 种 很 有 价值 的 方法 。 

口 作为 特征 提取 的 补充 ， 你 还 可 以 使 用 微调 ， 将 现 有 模型 之 前 学 到 的 一 些 数据 表示 应 用 于 
新 问题 。 这 种 方法 可 以 进一步 提高 模型 性 能 。 

现在 你 已 经 拥有 一 套 可 靠 的 工具 来 处 理 图像 分 类 问题 ， 特 别 是 对 于 小 型 数据 集 。 


5.4 ” 卷 积 神经 网 络 的 可 视 化 


人 们 和 党 说 ， 深 度 学 习 模 型 是 “ 黑 盒 ”， 即 模型 学 到 的 表示 很 难 用 人 类 可 以 理解 的 方式 来 提取 
和 呈现 。 虽 然 对 于 某 些 类 型 的 次 度 学 习 模 型 来 说 ， 这 种 说 法 部 分 正确 ， 但 对 卷 积 神经 网 络 来 说 
绝对 不 是 这 样 。 卷 积 神经 网 络 学 到 的 表示 非常 适合 可 视 化 ， 很 大 程度 上 是 因为 它们 是 视觉 概念 
的 表示 。 自 2013 年 以 来 ， 人 们 开发 了 多 种 技术 来 对 这 些 表示 进行 可 视 化 和 解释 。 我 们 不 会 在 书 
中 全 部 介绍 ， 但 会 介绍 三 种 最 容易 理解 也 最 有 用 的 方法 。 
口 可 视 化 卷 积 神经 网 络 的 中 间 输 出 〈 中 间 激 活 ) : 有 助 于 理解 卷 积 神经 网 络 连续 的 层 如 何 
对 输入 进行 变换 ， 也 有 助 于 初步 了 解 卷 积 神 经 网 络 每 个 过 滤 需 的 含义 。 
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口 可 视 化 卷 积 神经 网 络 的 过 滤器 : 有 助 于 精确 理解 卷 积 神经 网 络 中 每 个 过 滤 需 容易 接受 的 
视觉 模式 或 视觉 概念 。 
口 可 视 化 图 像 中 类 激活 的 热力 图 : 有 助 于 理解 图 像 的 哪个 部 分 被 识别 为 属于 某 个 类 别 ， 从 
而 可 以 定位 图 像 中 的 物体 。 
对 于 第 一 种 方法 ( 即 激活 的 可 视 化 )， 我 们 将 使 用 5.2 节 在 猫 狗 分 类 问题 上 从 头 开 始 训练 的 
小 型 卷 积 神经 网 络 。 对 于 男 外 两 种 可 视 化 方法 ,我们 将 使 用 5.3 市 介绍 的 VGG16 模型 。 


5.4.1 可 视 化 中 间 激 活 


可 视 化 中 间 激 活 ， 是 指 对 于 给 定 输入 ， 展 示 网 络 中 各 个 卷 积 层 和 池 化 层 输 出 的 特征 图 ( 层 
的 输出 通常 被 称 为 该 层 的 激活 ， 即 激活 函数 的 输出 )。 这 让 我 们 可 以 看 到 输入 如 何 被 分 解 为 网 络 
学 到 的 不 同 过 滤器 。 我 们 希望 在 三 个 维度 对 特征 图 进行 可 视 化 : 宽度 、 高 度 和 深度 (通道 )。 每 
个 通道 都 对 应 相对 独立 的 特征 ， 所 以 将 这 些 特征 图 可 视 化 的 正确 方法 是 将 每 个 通道 的 内 容 分 别 
绘制 成 二 维 图 像 。 我 们 首先 来 加 载 5.2 节 保 存 的 模型 。 


>>> from keras.models import load model 
>>> model = load model('cats_and dogs_small 2.h5') 






























































>>> model.summary () # 作为 提醒 

Layer (type) Output Shape Param # 
convaa5 (Cov2D) (None, 148, 148, 32) 896 
max_pooling2d_ 5 (MaxPooling2D) (None, 74, 74, 32) 0 
conv2d_6 (Conv2D) (None, 72, 72, 64) 18496 
max_pooling2d_6 (MaxPooling2D) (None, 36, 36, 64) 6 
conv2d_7 (Conv2D) (None, 34, 34, 128) I3856 
max_pooling2dq_ 7 (MaxPooling2D) (None, 17, 17, 128) 0 
conv2d_8 (Conv2D) (None, 15, 15, 128) 147584 
max_pooling2d 8 (MaxPooling2D) (None, 7, 7, 128) 0 
flatten 2 (Flatten) (None, 6272) 0 
dropout_1 (Dropout) (None, 6272) 0 
dense.3 (Dense) (None, 512) 3211776 
dense_4 (Dense) (None, 1) 513 


Total paramess: 3,453,121 
Trainable params: 3,453,121 
Non-trainable params: 0 
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接 下 来 ,我 们 需要 一 张 输入 图 像 ， 即 一 张 猫 的 图 像 ， 它 不 属于 网 络 的 训练 图 像 。 





代码 清单 5-25 ” 预 处 理 单 张 图 像 


img_path = '/Users/fchollet/Downloads/cats_angd dogs_small/test/cats/cat.1700.jpg' 


from keras.preprocessing import image < 一 将 图 像 预 处 理 为 一 个 4D 张 量 
import numpy as np 


img = image.load_ img (img_path, target_size=(150, 150)) 
img_tensor = image.img to_array (img) 
img_tensor = np.expand_ dims (img_tensor, axis=0) 


img_tensor /= 255. a 、 本 
| ts 

# 其 形状 为 (1，150，150，3) 都 用 这 种 方法 预 处 理 

print (img tensor .shape) 


我 们 来 显示 这 张 图 像 ( 见 图 5-24 )。 





代码 清单 5-26 ”显示 测试 图 像 


Import matplotlib.pyplot as plt 


plt.imshow(img_tensor[0]) 
plt.show!() 
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0 2 和 6 860 100 120 140 
图 5-24 ”测试 的 猫 图 像 


为 了 提取 想 要 查看 的 特征 图 ， 我 们 需要 创建 一 个 Keras 模型 ， 以 图 像 批量 作为 输入 ， 并 输出 
所 有 卷 积 层 和 池 化 层 的 激活 。 为 此 ， 我 们 需要 使 用 Keras 的 Moael 类 。 模 型 实例 化 需要 两 个 参 
数 : 一 个 输入 张 量 (或 输入 张 量 的 列表 ) 和 一 个 输出 张 量 (或 输出 张 量 的 列表 )。 得 到 的 类 是 一 个 
Keras 模型 ， 就 像 你 熟悉 的 Sequential 模型 一 样 ， 将 特定 输入 映射 为 特定 输出 。Model 类 允许 
模型 有 多 个 输出 ,这 一 点 与 Sequential 模型 不 同 。 想 了 解 Model 类 的 更 多 信息 ,请 参见 7.1 节 。 
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代码 清单 5-27 用 一 个 输入 张 量 和 一 个 输出 张 量 列表 将 模型 实例 化 





from keras import models 


layer_outputs = [layer.output for layer in model.layers[:8]] < 一 提取 前 8 层 的 输出 
activation model = models.Model (inputs=model.input, outputs=layer_outputs) 加 


创建 一 个 模型 ， 给 定 模型 输入 ， 
可 以 返回 这 些 输出 
输入 一 张 图 像 ， 这 个 模型 将 返回 原始 模型 前 8 层 的 激活 值 。 这 是 你 在 本 书 中 第 一 次 遇 到 的 
多 输出 模型 ， 之 前 的 模型 都 是 只 有 一 个 输入 和 一 个 输出 。 一 般 情况 下 ， 模 型 可 以 有 任意 个 输入 
和 输出 。 这 个 模型 有 一 个 输入 和 8 个 输出 ， 即 每 层 激活 对 应 一 个 输出 。 




















代码 清单 5-28 ”以 预测 模式 运行 模型 





返回 8 个 Numpy 数组 组 成 的 列表 ， 


activations = activation model.predict (img_ tensor) | 
每 个 层 激活 对 应 一 个 Numpy 数组 


例如 ， 对 于 输入 的 猫 图 像 ， 第 一 个 卷 积 层 的 激活 如 下 所 示 。 


>>> first_layer_ activation = activations [0] 
>>> print (first_layer_ activation.shape) 
(1; L148; L148, 32) 


它 是 大 小 为 148 x 148 的 特征 图 ， 有 32 个 通道 。 我 们 来 绘制 原始 模型 第 一 层 激 活 的 第 4 个 
通道 ( 见 图 5-25 )。 





代码 清单 5-29 ”将 第 4 个 通道 可 视 化 





import matplotlib.pyplot as plt 


plt.matshow(first_layer activation[0, :, :, 4], cmap='viridis') 


0 20 40 6 80 100 120 140 





图 5-25 ”对 于 测试 的 猫 图 像 ， 第 一 层 激活 的 第 4 个 通道 


这 个 通道 似乎 是 对 角 边 缘 检 测 器 。 我 们 再 看 一 下 第 7 个 通道 ( 见 图 5-26 )。 但 请 注意 ,你 的 
通道 可 能 与 此 不 同 ， 因 为 卷 积 层 学 到 的 过 滤器 并 不 是 确定 的 。 
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代码 清单 5-30 ”将 第 7 个 通道 可 视 化 





plt.matshow (first_layer_activation[0, :, :, 7], cmap='viridis') 
和 20 40 60 80 100 120 140 
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图 5-26 ”对 于 测试 的 猫 图 像 ， 第 一 层 激活 的 第 7 个 通道 


这 个 通道 看 起 来 像 是 “人 鲜 绿 色 圆 点 ”检测 器 ， 对 寻找 猫眼 睛 很 有 用 。 下 面 我 们 来 绘制 网 络 
中 所 有 激活 的 完整 可 视 化 ( 见 图 5-27 )。 我 们 需要 在 8 个 特征 图 中 的 每 一 个 中 提取 并 绘制 每 一 个 
通道 ， 然 后 将 结果 三 加 在 一 个 大 的 图 像 张 量 中 ， 按 通道 并 排 。 


代码 清单 5-31 将 每 个 中 间 激 活 的 所 有 通道 可 视 化 



































1 

















layer_names = [] 


for layer in model.layers[:8]: 层 的 名 称 ， 这 样 你 可 以 将 这 些 名 称 画 到 图 中 


layer_names .append (layer.name) 
images_per_row = 16 


for layer_ name, layer_activation in zip(layer names, activations): < 一 显示 特征 图 
n_features = layer_activation.shape[-1] < 一 特征 图 中 的 特征 个 数 


size = layer_activation.shape[l1] < 一 特征 图 的 形状 为 (1，size, size, n features) 


n_cols = Dn_ features // images_per_row 十 -在 这 个 和 矩阵 中 将 激活 通道 平 铺 
display_ grid = np.zeros((size * n cols, images_ per row * size)) 








for col in range(n cols): < 
for row in range(images_per_row): 将 每 个 过 滤器 平 铺 到 
channel_image = layer_ activation[0, 一 个 大 的 水 平 网 格 中 
Col * images_per_row + row] 
channel_image -= channel image.mean() 
对 特征 进行 后 channel_image /= channel image.stdqd() 
处 理 ， 使 其 看 channel_image *= 64 
起 来 更 美观 channel_image += 128 
channel_image = np.clip(channel image, 0, 255) .astype('uint8') 
display_gridl[col * size : (col + 1) * size, < 一 显示 网 格 


row * Size : (row + 1) * size] = channel image 


5.4 卷 积 神经 网 络 的 可 视 化 


135 





Scale = 1. / size 

plt.figure(figsize=(scale * display_grid.shapel[1], 
scale * display_grid.shape[0])) 

plt.title(layer_ name) 

plt.grid(False) 

plt.imshow(display_grid, aspect='auto', cmap='viridis') 


convolution2d 5 





0 
机) 








图 5-27 对 于 测试 的 猫 图 像 ， 每 个 层 激活 的 所 有 通道 
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这 里 需要 注意 以 下 几 点 。 

口 第 一 层 是 各 种 边缘 探测 需 的 集合 。 在 这 一 阶段 ， 激 活 几 乎 保留 了 原始 图 像 中 的 所 有 信息 。 

口 随 着 层 数 的 加 深 ， 激 活 变 得 越 来 越 抽 象 ， 并 且 越 来 越 难以 直观 地 理解 。 它 们 开始 表示 更 
高 层次 的 概念 ， 比 如 “ 猎 耳 条 ”和 “猫眼 睛 ”。 层 数 越 深 ,其 表示 中 关于 图 像 视觉 内 容 
的 信息 就 越 少 ， 而 关于 类 别 的 信息 就 越 多 。 

口 激活 的 稀 玻 度 (sparsity ) 随 着 层 数 的 加 深 而 增 大 。 在 第 一 层 里 ， 所 有 过 滤 带 都 被 输入 图 
像 激活 ， 但 在 后 面 的 层 里 ， 越 来 越 多 的 过 滤器 是 空白 的 。 也 就 是 说 ， 输 入 图 像 中 找 不 到 
这 些 过 滤 需 所 编码 的 模式 。 

我 们 刚刚 揭示 了 深度 神经 网 络 学 到 的 表示 的 一 个 重要 普遍 特征 : 随 着 层 数 的 加 深 ， 层 所 






































提取 的 特征 变 得 越 来 越 抽象 。 更 高 的 层 激活 包含 关于 特定 输入 的 信息 越 来 越 少 ， 而 关于 目标 的 


本 


言 息 越 来 越 多 ( 本 例 中 即 图 像 的 类 别 : 猫 或 狗 )。 深 度 神经 网 络 可 以 有 效 地 作为 信息 蒸馏 管道 


(information distillation pipeline )， 输 入 原始 数据 (本 例 中 是 RGB 图 像 )， 反复 对 其 进行 变换 ， 
将 无 关 信息 过 滤 掉 〈 比如 图 像 的 具体 外 观 )， 并 放大 和 细 化 有 用 的 信息 〈 比如 图 像 的 类 别 )。 


画 


图 











这 与 人 类 和 动物 感知 世界 的 方式 类 似 ， 人 类 观察 一 个 场景 几 秒 钟 后 ， 可 以 记 住 其 中 有 哪些 





抽象 物体 ( 比如 自行 车 、 树 )， 但 记 不 住 这 些 物 体 的 具体 外 观 。 事 实 上 ， 如 果 你 试 着 赁 记忆 








普通 自行 车 ， 那 么 很 可 能 完全 面 不 出 真实 的 样子 ,虽然 你 一 生 中 见 过 上 千 辆 自行 车 ( 见 

















5-28 )。 你 可 以 现在 就 试 着 画 一 下 ， 这 个 说 法 绝对 是 真实 的 。 你 的 大 脑 已 经 学 会 将 视觉 输入 完 


全 抽象 化 ， 即 将 其 转换 为 更 高 层次 的 视觉 概念 ， 同 时 过 滤 掉 不 相关 的 视觉 细节 ， 这 使 得 大 脑 很 
难 记 住 周围 事物 的 外 观 。 


E 














图 5-28 〈 左 图 ) 试 着 凭 记忆 画 一 辆 自行 车 ; ( 右 图 ) 自行 车 示意 图 





5.4.2 可视化 卷 积 神经 网 络 的 过 滤器 


想 要 观察 卷 积 神经 网 络 学 到 的 过 小 右 ， 为 一 种 简单 的 方法 是 显示 每 个 过 滤 右 所 响应 的 视觉 


模式 。 这 可 以 通过 在 输入 空间 中 进行 梯度 上 升 来 实现 : 从 空白 输入 图 像 开 始 ， 将 梯度 下 降 应 用 
于 卷 积 神经 网 络 输入 图 像 的 值 ， 其 目的 是 让 某 个 过 滤器 的 响应 最 大 化 。 得 到 的 输入 图 像 是 选 定 
过 滤器 具有 最 大 啊 应 的 图 像 。 
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这 个 过 程 很 简单 : 我 们 需要 构建 一 个 损失 函数 ， 其 目的 是 让 某 个 卷 积 层 的 某 个 过 滤器 的 值 最 
大 化 ; 然后 ， 我 们 要 使 用 随机 梯度 下 降 来 调节 输入 图 像 的 值 ， 以 便 让 这 个 激活 值 最 大 化 。 例 如 ， 
对 于 在 ImageNet 上 预 训练 的 VGG16 网 络 ,其 block3_conv1 层 第 0 个 过 滤器 激活 的 损失 如 下 所 示 。 


为 过 滤 需 的 可 视 化 定义 损失 张 量 





from keras.applications import VGG16 
from keras import backend as K 


model = VGG16 (weights='imagenet', 
include top=False) 


layer_name = 'block3_convil' 
filter index = 0 


layer_output = model.get_layer (layer_name) .output 
loss = K.mean(layer_output[:, :, :, filter index]) 


为 了 实现 梯度 下 降 ， 我 们 需要 得 到 损失 相对 于 模型 输入 的 梯度 。 为 此 ， 我 们 需要 使 用 Keras 
的 backend 模块 内 置 的 gradients 隐 数 。 





代码 清单 5-33 ”获取 损失 相对 于 输入 的 梯度 


例 中 列表 长 度 为 1)。 因 此 ,只 保留 第 一 个 元 素 ， 
它 是 一 个 张 量 
为 了 让 梯度 下 降 过 程 顺 利 进行 ， 一 个 非 显 而 易 见 的 技巧 是 将 梯度 张 量 除 以 其 L2 范 数 ( 张 量 
中 所 有 值 的 平方 的 平均 值 的 平方 根 ) 来 标准 化 。 这 就 确保 了 输入 图 像 的 更 新 大 小 始终 位 于 相同 
的 范围 


grads = K.gradients(loss, model.input) [0] 、 、 加 
调用 gradients 返回 的 是 一 个 张 量 列 表 〈 本 








代码 清单 5-34 ”梯度 标准 化 技巧 


grads /= (K.sqrt(K.mean(K.square(grads))) + 1e-5) < 一 做 除法 前 加 上 le-5， 以 防 不 小 心 除 以 0 


现在 你 需要 一 种 方法 : 给 定 输入 图 像 ， 它 能 够 计算 损失 张 量 和 梯度 张 量 的 值 。 你 可 以 定义 
一 个 Keras 后 端 函 数 来 实现 此 方法 :iterate 是 一 个 函数 ， 它 将 一 个 Numpy 张 量 ( 表示 为 长 度 
为 1 的 张 量 列表 ) 转换 为 两 个 Numpy 张 量 组 成 的 列表 ， 这 两 个 张 量 分 别 是 损失 值 和 梯度 值 。 





代码 清单 5-35 ”给 定 Numpy 输入 值 ， 得 到 Numpy 输出 值 


iterate = K.function([model.input], [loss, grads]) 


import numpy as np 
loss_value, grads_value = iterate([np.zeros((1, 150, 150, 3))]) 


现在 你 可 以 定义 一 个 Python 循环 来 进行 随机 梯度 下 降 。 





代码 清单 5-36 通过 随机 梯度 下 降 让 损失 最 大 化 
input_img_data = np.random.random( (1, 150, 150, 3)) * 20 + 128. 从 一 张 带 有 噪声 的 
灰 度 图 像 开始 





138 ”第 5 章 深度 学 习 用 于 计算 机 视觉 














step = 1. < 一 每 次 梯度 更 新 的 步 长 
for i in range(40): 
loss_value, grads value = iterate([input_img_ datal]) 运行 40 次 
梯度 上 升 
input_img_data += grads_value * step 4 
人 
计算 损失 值 和 梯度 值 沿 着 让 损失 最 大 化 的 
方向 调节 输入 图 像 








得 到 的 图 像 张 量 是 形状 为 (1，150，150，3) 的 浮 点 数 张 量 ， 其 取 值 可 能 不 是 [0, 255] 区 
间 内 的 整数 。 因 此 ， 你 需要 对 这 个 张 量 进 行 后 处 理 ， 将 其 转换 为 可 显示 的 图 像 。 下 面 这 个 简单 


的 实用 函数 可 以 做 到 这 一 点 。 


代码 清单 5-37 ”将 张 量 转 换 为 有 效 图 像 的 实用 函数 





def deprocess_image (x): 


sa 对 张 量 做 标准 化 ,使 其 均值 为 0 
XxX /= (XxX.Std(}) + le-5) a 、 

文 x- 0.1 标准 差 为 0.1 

X += 0.5 


ee | 将 < 裁 切 (clip) 到 [0, 1] 区 间 


x *= 255 
x = np.clip(x, 0, 255) .astype('uint8') 将 x 转换 为 RGB 数组 
return x 


接 下 来 ,我 们 将 上 述 代码 片段 放 到 一 个 Python 函数 中 ,输入 一 个 层 的 名 称 和 一 个 过 滤器 索引 ， 


它 将 返回 一 个 有 效 的 图 像 张 量 ， 表 示 能 够 将 特定 过 滤 融 的 激活 最 大 化 的 模式 。 


代码 清单 5-38 ”生成 过 滤 需 可 视 化 的 函数 





构建 一 个 损失 函数 ， 将 该 层 第 n 个 过 滤器 的 激活 最 大 化 


def generate pattern(layer name, filter_ index, size=150): 
layer_output = model.get_layer (layer_name) .output 
loss = K.mean(layer_output[:, :, :, filter_ index]) 


grads = K.gradients(loss，model.input)[0] < 一 计算 这 个 损失 相对 于 输入 图 像 的 梯度 


grads /= (K.sqrt (K.mean(K.square(grads))) + 1e-5) < 一 标准 化 技巧 ! 将 梯度 标准 化 


iterate = K.function([model.input]，[loss，grads]) < 返回 给 定 输入 图 像 的 损失 和 梯度 


input_img_data = np.random.random( (1, size, size, 3)) * 20 + 128. 


SE. 从 带 有 噪声 的 
运行 40 次 | for i in range(40) : 图 像 开始 


梯度 上 升 loss_value, grads_value = iterate( [input_img datal]) 
input_img_data += grads_value * step 


img = input_img_data[0] 
return deprocess_image (img) 
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我 们 来 试用 一 下 这 个 函数 ( 见 图 5-29 )。 


>>> plt.imshow(generate pattern('block3_convl', 0)) 





图 5-29 block3_conv1 层 第 0 个 通道 具有 最 大 响应 的 模式 


看 起 来 , block3_convl 层 第 0 个 过 滤 需 啊 应 的 是 波尔卡 点 (polka-dot ) 图 案 。 下 面 来 
看 有 趣 的 部 分 : 我 们 可 以 将 每 一 层 的 每 个 过 滤器 都 可 视 化 。 为 了 简单 起 见 ， 我 们 只 查看 每 一 
层 的 前 64 个 过 滤器 ， 并 只 查看 每 个 卷 积 块 的 第 一 层 ( 即 block1_conv1、block2_conv1、 
block3_conv1、block4 conv1、block5_conv1l )。 我们 将 输出 放 在 一 个 8x8 的 网 格 中 ， 
每 个 网 格 是 一 个 64 像素 x 64 像素 的 过 滤器 模式 ， 两 个 过 滤器 模式 之 间 留 有 一 些 黑 边 ( 见 
图 5-30 ~ 图 5-33 )。 


代码 清单 5-39 生成 某 一 层 中 所 有 过 泪 融 响应 模式 组 成 的 网 格 











Jayer_name = 'blockl_ convil' 
size = 64 空 图 像 (全 黑色 )， 
margin = 5 用 于 保存 结果 


results = np.Zeros((8 * size + 7 * margin, 8 * size + 7 * margin, 3)) 


for i in range(8): < 了 4 一 遍历 results 网 格 的 行 
for j in range(8): < 一 遍历 results 网 格 的 列 
filter_img = generate pattern(layer name, i + (jj * 8), size=size) 
生成 layer_ 
name 层 第 i+ horizontal_ start = i * size + i * margin 
(j * 8) 个 过 horizontal_end = horizontal_start + size 
滤器 的 模式 Vertical_start = size +]j* margin 将 结果 放 到 results 网 格 
vertical_end = vertical_ start + size 第 (个 方块 中 
results[horizontal_start: horizontal_end, 
vertical_start: vertical end, :] = filter_img 


plt.figure(figsize=(20, 20 


) ) 二 
并 是 未 
plt.imshow (results) 显示 results 网 格 
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100 20 四 300 400 S00 


图 5-30 block1_convl 层 的 过 滤器 模式 








100 200 0 Er S00 


图 5-31 block2_conv1l 层 的 过 滤器 模式 
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图 5-33 block4_convl 层 的 过 滤器 模式 
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这 些 过 滤器 可 视 化 包含 卷 积 神经 网 络 的 层 如 何 观 察 世 界 的 很 多 信息 ; 卷 积 神经 网 络 中 每 一 
层 都 学 习 一 组 过 滤 需 ， 以 便 将 其 输入 表示 为 过 滤器 的 组 合 。 这 类 似 于 传 里 叶 变换 将 信号 分 解 为 一 
组 余弦 函数 的 过 程 。 随 着 层 数 的 加 深 ， 卷 积 神经 网 络 中 的 过 波 需 变 得 越 来 越 复杂 ， 越 来 越 精细 。 
口 模型 第 一 层 (block1_conv1 ) 的 过 滤器 对 应 简单 的 方向 边缘 和 颜色 ( 还 有 一 些 是 彩色 
边缘 )。 
口 plock2_conv1 层 的 过 波 需 对 应 边缘 和 颜色 组 合 而 成 的 简单 纹理 。 
口 更 高 层 的 过 滤 右 类似 于 自然 图 像 中 的 纹理 : 羽毛 、 眼 睛 、 树 叶 等 。 


5.4.3 ”可 视 化 类 激活 的 热力 图 


我 还 要 介绍 另 一 种 可 视 化 方法 ， 它 有 助 于 了 解 一 张 图 像 的 哪 一 部 分 让 卷 积 神 经 网 络 做 出 了 
最 终 的 分 类 决策 。 这 有 助 于 对 卷 积 神经 网 络 的 决策 过 程 进 行 调试 ,特别 是 出 现 分 类 错误 的 情况 下 。 
这 种 方法 还 可 以 定位 图 像 中 的 特定 目标 。 

这 种 通用 的 技术 叫 作 类 激活 图 ( CAM ，class activation map ) 可 视 化 ， 它 是 指 对 输入 图 像 生 
成 类 激活 的 热力 图 。 类 激活 热力 图 是 与 特定 输出 类 别 相 关 的 二 维 分 数 网 格 ， 对 任何 输入 图 像 的 
每 个 位 置 都 要 进行 计算 ， 它 表示 每 个 位 置 对 该 类 别 的 重要 程度 。 举 例 来 说 ， 对 于 输入 到 猫 狗 分 
类 卷 积 神经 网 络 的 一 张 图 像 ，CAM 可 视 化 可 以 生成 类 别 “ 猫 ”的 热力 图 ， 表 示 图 像 的 各 个 部 分 
与 “ 猫 ” 的 相似 程度 , CAM 可 视 化 也 会 生成 类 别 “ 狗 ”的 热力 图 , 表示 图 像 的 各 个 部 分 与 “ 狗 ” 
的 相似 程度 。 

我 们 将 使 用 的 具体 实现 方式 是 “Grad-CAM: visual explanations from deep networks via gradient- 
based localization”% 这 篇 论文 中 描述 的 方法 。 这 种 方法 非常 简单 : 给 定 一 张 输 入 图 像 , 对 于 一 个 
卷 积 层 的 输出 特征 图 ， 用 类 别 相 对 于 通道 的 梯度 对 这 个 特征 图 中 的 每 个 通道 进行 加 权 。 直 观 上 
来 看 ， 理 解 这 个 技巧 的 一 种 方法 是 ， 你 是 用 “每 个 通道 对 类 别 的 重要 程度 ”对 “输入 图 像 对 不 
同 通道 的 激活 强度 ”的 空间 图 进行 加 权 ， 从 而 得 到 了 “输入 图 像 对 类 别 的 激活 强度 ”的 空间 图 。 

我 们 再 次 使 用 预 训练 的 VGG16 网 络 来 演示 此 方法 。 






































代码 清单 5-40 ”加 载 带 有 预 训练 权重 的 VGG16 网 络 


from keras.applications.vgg16 import VGG16 注意 ， 网 络 中 包括 了 密集 连接 分 类 器 。 在 前 面 


: ; 所 有 的 例子 中 ， 我 们 都 舍弃 了 这 个 分 类 器 
model = VGG16 (weights='imagenet') 


图 5-34 显示 了 两 只 非洲 象 的 图 像 ( 遵守 知识 共享 许可 协议 )， 可 能 是 一 只 母 象 和 它 的 小 
象 ， 它 们 在 大 草原 上 漫步 。 我 们 将 这 张 图 像 转 换 为 VGG16 模型 能 够 读 取 的 格式 : 模型 在 大 小 为 
224 x 224 的 图 像 上 进行 训练 ， 这 些 训 练 图 像 都 根据 keras.applications.vgg16.preprocess_ 
input 函数 中 内 置 的 规则 进行 预 处 理 。 因 此 ， 我 们 需要 加 载 图 像 ， 将 其 大 小 调整 为 224 x 224， 
然后 将 其 转换 为 float32 格式 的 Numpy 张 量 ， 并 应 用 这 些 预 处 理 规则 。 











人 该 文 由 Ramprasaath R. Selvaraju 等 人 于 2017 年 发 表 。 
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图 5-34 非洲 象 的 测试 图 像 


清单 5-41 ”为 VGG16 模型 预 处 理 一 张 输 入 图 像 





from keras.preprocessing import image 
from Keras .applications.vgg16 import preprocess_input, decode predictions 


import numpy as np 目标 图 像 的 
; ee ; i -| 本 地 路 径 
img_path = '/Users/fchollet/Downloads/creative_commons_elephant .jpg 





图 像 库 (PIL，Python imaging 


img = image.load img (img_ path, target_size=(224, 224)) | 大 小 为 224X224 的 Python 
library) 图像 


float32 格式 的 Numpy 数组 


x = image.img to_array (img) | 形状 为 (224，224，3) 的 
x = np.expangd dims (x, axis=0) 
添加 一 个 维度 ， 将 数组 转换 为 


x = preprocess_input (x) (1，224，224，3) 形状 的 批量 
曾 对 批量 进行 预 处 理 〈 按 通道 进行 颜色 标准 化 ) 
现在 你 可 以 在 图 像 上 运行 预 训练 的 VGG16 网 络 ， 并 将 其 预测 向 量 解码 为 人 类 可 读 的 格式 。 


>>> preds = model .predict (x) 

>>> print ('Predicted:', decode predictions (preds, top=3)[0]) 
Predicted:', [(u'n02504458', u'African elephant', 0.92546833)， 
(Un0L87L265 "yy Wtusker', Qa070257246); 

(u'n02504013', u'Indian _ elephant', 0.0042589349)] 


对 这 张 图 像 预测 的 前 三 个 类 别 分 别 为 : 
口 非洲 象 ( African elephant，92.5% 的 概率 ) 
口 长 牙 动 物 (tusker，7% 的 概率 ) 
口 印度 象 (Indian elephant，0.4% 的 概率 ) 
网 络 识别 出 图 像 中 包含 数量 不 确定 的 非洲 象 ,预测 向 量 中 被 最 大 激活 的 元 素 是 对 应 “非洲 象 ” 
类 别 的 元 素 ， 索 引 编号 为 386。 
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>>> np.argmax (preds[0]) 
386 


为 了 展示 图 像 中 哪些 部 分 最 像 非 洲 象 ， 我 们 来 使 用 Grad-CAM 算法 。 


代码 清单 5-42 ”应 用 Grad-CAM 算法 








african_elephant_output = model.output[:, 386] -一 预测 向 量 中 的 “非洲 象 ”元 素 
1 1 三 1 1 'block . 
ast_conv_layer model.get_layer('block5_conv3') 加 block5_conv3 层 的 输出 特征 图 ， 
“非洲 象 ”类 别 相 对 于 block5_conv3 它 是 VGG16 的 最 后 一 个 卷 积 层 
输出 特征 图 的 梯度 
grads = K.gradients(african elephant_output, last_conv_layer.output)[0] 


形状 为 (512, ) 的 向 量 ， 每 个 元 素 


pooled_ grads = K.meanl(grads, axis=(0, 1, 2)) 
是 特定 特征 图 通道 的 梯度 平均 大 小 


iterate = K.function([model.input], 











> [pooled_ grads, last_conv_layer.output{[0]]) 对 于 两 个 大 象 的 样本 图 像 
a 人 号 
pooled_ grads_value, conv_layer_output value = iterate([x]) M 这 两 个 量 都 是 Numpy 数组 
for i in range(512): | 
conv_layer_output_value[:, :, i] *= pooled grads value[il] | 将 特征 图 数组 的 每 个 
heatmap = np.mean(conv_layer_ output_value, axis=-1) 通道 乘 以 “这 个 通道 
5 对 “大 象 ”类 别 的 重 
访问 刚刚 定义 的 量 : 对 于 给 定 的 样本 图 像 ， 得 到 的 特征 图 的 逐 通 要 程度 ” 
pooled_grads 和 block5_conv3 层 的 输 道 平 均值 即 为 类 激活 
出 特征 图 的 热力 图 





为 了 便于 可 视 化 ,我 们 还 需要 将 热力 图 标准 化 到 0~1 范围 内 。 得 到 的 结果 如 图 5-35 所 示 。 





代码 清单 5-43 ”热力 图 后 处 理 
heatmap = np.maximum (heatmap, 0) 
heatmap /= np.max (heatmap) 
plt.matshow (heatmap) 





图 5-35 ”测试 图 像 的 “非洲 象 ” 类 激活 热力 图 
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最 后 ， 我 们 可 以 用 OpenCV 来 生成 一 张 图 像 ， 将 原始 图 像 苹 加 在 刚刚 得 到 的 热力 图 上 ( 见 
图 5-36 )。 


代码 清单 5-44 ”将 热力 图 与 原始 图 像 稚 加 





import cv2 


img = cv2.imread(img_path) < 一 用 cv2 加 载 原始 图 像 将 热力 图 的 大 小 调整 
: : . 为 与 原始 图 像 相同 
heatmap = cv2.resize(heatmap, (img.shapel[l1], img.shape[0])) 


heatmap = np.uint8(255 * heatmap) < 一 将 热力 图 转换 为 RGB 格式 
heatmap = cv2.applyColorMap (heatmap, cv2.COLORMAP_JET) < 一 将 热力 图 应 用 于 原始 图 像 
superimposed_img = heatmap * 0.4 + img < 一 这 里 的 0.4 是 热力 图 强度 因子 


cv2.imwrite('/Users/fchollet/Downloads/elephant_ cam.jpg', superimposed img) | 
更 盘 


将 图 像 保存 到 





图 5-36 ”将 类 激活 热力 图 县 加 到 原始 图 像 上 





这 种 可 视 化 方法 回答 了 两 个 重要 问题 : 
口 网 络 为 什么 会 认为 这 张 图 像 中 包含 一 头 非洲 象 ? 
口 非洲 象 在 图 像 中 的 什么 位 置 ? 
尤其 值得 注意 的 是 ， 小 象 耳 休 的 激活 强度 很 大 ， 这 可 能 是 网 络 找 到 的 非洲 象 和 印度 象 的 不 
同 之 处 。 
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本 章 小 结 


口 卷 积 神经 网 络 是 解决 视觉 分 类 问题 的 最 佳 工具 。 

口 卷 积 神经 网 络 通 过 学 习 模 块 化 模式 和 概念 的 层次 结构 来 表示 视觉 世界 。 
口 卷 积 神经 网 络 学 到 的 表示 很 容易 可 视 化 ， 卷 积 神经 网 络 不 是 黑 盒 。 

口 现在 你 能 够 从 头 开 始 训练 自己 的 卷 积 神经 网 络 来 解决 图 像 分 类 问题 。 
D 你 知道 了 如 何 使 用 视觉 数据 增强 来 防止 过 拟 合 。 
口 你 知道 了 如 何 使 用 预 训练 的 卷 积 神经 网 络 进行 特征 提取 与 模型 微调 。 

口 你 可 以 将 卷 积 神经 网 络 学 到 的 过 滤 吉 可视化， 也 可 以 将 类 激活 热力 图 可 视 化 。 























第 6 章 


深 度 学 习 用 于 文本 和 序列 








本 章 包 括 以 下 内 容 : 

口 将 文本 数据 预 处 理 为 有 用 的 数据 表示 
口 使 用 循环 神经 网 络 

口 使 用 一 维 卷 积 神经 网 络 处 理 序 列 








本 章 将 介绍 使 用 深度 学 习 模 型 处 理 文 本 ( 可 以 将 其 理解 为 单词 序列 或 字符 序列 )、 时 间 序 列 
和 一 般 的 序列 数据 。 用 于 处理 序列 的 两 种 基本 的 深度 学 习 算 法 分 别 是 循环 神经 网 络 ( recurrent 





neural network ) 和 一 维 卷 积 神经 网 络 ( 1D convnet )， 后 者 是 上 一 章 介 绍 的 二 维 卷 积 神 
一 维 版 本 。 本 章 将 讨论 这 两 种 方法 。 

这 些 算法 的 应 用 包括 : 

口 文档 分 类 和 时 间 序 列 分 类 ， 比 如 识别 文章 的 主题 或 书 的 作者 ; 

口 时 间 序 列 对 比 ， 比 如 佑 测 两 个 文档 或 两 支 股票 行情 的 相关 程度 ; 

口 序列 到 序列 的 学 习 ， 比 如 将 英语 翻译 成 法 语 ; 

口 情感 分 析 ， 比 如 将 推 文 或 电影 评论 的 情感 划分 为 正面 或 负面 ; 

口 时 间 序 列 预测 ， 比 如 根据 某 地 最 近 的 天 气 数据 来 预测 未 来 天 气 。 














经 网 络 的 


本 章 的 示例 重点 讨论 两 个 小 任务 : 一 个 是 IMDB 数据 集 的 情感 分 析 ， 这 个 任务 前 面 介绍 过 ; 





另 一 个 是 温度 预测 。 但 这 两 个 任务 中 所 使 用 的 技术 可 以 应 用 于 上 面 列 出 来 的 所 有 应 用 。 
6.1 处理 文本 数据 








文本 是 最 常用 的 序列 数据 之 一 ， 可 以 理解 为 字符 序列 或 单词 序列 ， 但 最 常见 的 是 单词 级 处 





理 。 后 面 几 节 介 绍 的 深度 学 习 序 列 处 理 模 型 都 可 以 根据 文本 生成 基本 形式 的 自然 语言 
可 用 于 文档 分 类 、 情 感 分 析 、 作 者 识别 甚至 问答 (QA, 在 有 限 的 语 境 下 ) 等 应 用 。 当 然 
本 章 的 这 些 深 度 学 习 模 型 都 没有 像 人 类 一 样 真 正 地 理解 文本 ， 而 只 是 映射 出 书面 语言 














理解 ， 并 
3 请 记 住 机 
的 统计 结 





构 ， 但 这 足以 解决 许多 简单 的 文本 任务 。 深 度 学 习 用 于 自然 语言 处 理 是 将 模式 识别 应 用 于 单词 、 





句子 和 段落 ， 这 与 计算 机 视觉 是 将 模式 识别 应 用 于 像素 大 致 相同 。 





与 其 他 所 有 神经 网 络 一 样 , 深度 学 习 模型 不 会 接收 原始 文本 作为 输入 , 它 只 能 处 理 数 值 张 量 。 


文本 向 量化 〈vectorize ) 是 指 将 文本 转换 为 数值 张 量 的 过 程 。 它 有 多 种 实现 方法 。 
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口 将 文本 分 割 为 单词 ， 并 将 每 个 单词 转换 为 一 个 向 量 。 
口 将 文本 分 割 为 字符 ， 并 将 每 个 字符 转换 为 一 个 向 量 。 
D 提取 单词 或 字符 的 n-gram， 并 将 每 个 n-gram 转换 为 一 个 向 量 。n-gram 是 多 个 连续 单词 
或 字符 的 集合 (n-gram 之 间 可 重 苹 )。 

将 文本 分 解 而 成 的 单元 (单词 、 字 符 或 n-gram ) 叫 作 标记 (token )， 将 文本 分 解 成 标记 的 
过 程 叫 作 分 词 (tokenization )。 所 有 文本 向 量化 过 程 都 是 应 用 某 种 分 词 方案 ， 然 后 将 数值 向 量 
与 生成 的 标记 相关 联 。 这 些 向 量 组 合成 序列 张 量 ,， 被 输入 到 深度 神经 网 络 中 ( 见 图 6-1 )。 将 向 
量 与 标记 相关 联 的 方法 有 很 多 种 。 本 节 将 介绍 两 种 主要 方法 : 对 标记 做 one-hot 编码 ( one-hot 
encoding ) 与 标记 舱 入 [token embedding， 通 常 只 用 于 单词 ， 叫 作词 租 入 (word embedding ) ]。 
本 节 剩 余 内 容 将 解释 这 些 方 法 ， 并 介绍 如 何 使 用 这 些 方法 ,将 原始 文本 转换 为 可 以 输入 到 Keras 
网 络 中 的 Numpy 张 量 。 






























































文本 
"The cat Sat on the mat." 
了 9 
标记 
the 如 如 从 EE th mat 
了 
标记 的 向 量 编码 
850 8 8 Dd G0 G0 工 .9 020 
上 
二” 5、 了 二 
the wat ‘sat Du the mat 














6-1 从 文本 到 标记 再 到 向 量 


理解 n-gram 和 词 袋 

n-gram 是 从 一 个 句子 中 提取 的 NN 个 (或 更 少 ) 连续 单词 的 集合 。 这 一 概念 中 的 “单词 ” 
也 可 以 替换 为 “字符 ”。 

下 面 来 看 一 个 简单 的 例子 。 考 虑 句子 “The cat sat on the mat.”(“ 猫 坐 在 垫子 上 ”)。 它 
可 以 被 分 解 为 以 下 二 元 语法 ( 2-grams ) 的 集合 。 


ea 
"sat Bri Marane "on la when "the va rene 
个 句子 也 可 以 被 分 解 为 以 下 三 元 语法 (3-grams ) 的 集合 。 
人 RE 本 
ool Soeon Le eat se on on een ee 
noc onehe ee cheemel ee na om ma 


这 样 的 集合 分 别 叫 作 二 元 语法 袋 ( bag-of-2-grams ) 及 三 元 语法 代 (bag-of-3-grams )。 这 
里 袋 (bag ) 这 一 术语 指 的 是 ， 我 们 处 理 的 是 标记 组 成 的 集合 ， 而 不 是 一 个 列表 或 序列 ， 即 
标记 没有 特定 的 顺序 。 这 一 系列 分 词 方法 叫 作 词 代 (bag-of-words )。 
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词 袋 是 一 种 不 保存 顺序 的 分 词 方法 ( 生成 的 标记 组 成 一 个 集合 ， 而 不 是 一 个 序列 ， 会 
弃 了 句子 的 总 体 结构 )， 因 此 它 往往 被 用 于 浅 层 的 语言 处 理 模型 ， 而 不 是 深度 学 习 模 型 。 提 
取 n-gram 是 一 种 特征 工程 ， 深 度 学 习 不 需要 这 种 死板 而 又 不 稳定 的 方法 ， 并 将 其 替换 为 分 
层 特 征 学 习 。 本 章 后 面 将 介绍 的 一 维 卷 积 神 经 网 络 和 循环 神经 网 络 ， 都 能 够 通过 观察 连续 的 
单词 序列 或 字符 序列 来 学 习 单词 组 和 字符 组 的 数据 表示 ， 而 无 须 明确 知道 这 些 组 的 存在 。 因 
此 ， 本 书 不 会 进一步 讨论 n-gram。 但 一 定 要 记 住 ， 在 使 用 轻 量 级 的 浅 层 文本 处 理 模型 时 ( 比 
如 logistic 回归 和 随机 森林 )，n-gram 是 一 种 功能 强大 、 不 可 或 缺 的 特征 工程 工具 。 


6.1.1 单词 和 字符 的 one-hot 编码 


one-hot 编码 是 将 标记 转换 为 回 量 的 最 常用 、 最 基本 的 方法 。 在 第 3 章 的 IMDB 和 路 透 社 两 
个 例子 中 ， 你 已 经 用 过 这 种 方法 (都 是 处 理 单词 )。 它 将 每 个 单词 与 一 个 唯一 的 整数 索引 相关 联 ， 
然后 将 这 个 整数 索引 i 转换 为 长 度 为 N 的 二 进 制 向 量 (NN 是 词 表 大 小 )， 这 个 癌 量 只 有 第 i 个 元 
素 是 1， 其 余 元 素 都 为 0。 

当然 ， 也 可 以 进行 字符 级 的 one-hot 编码 。 为 了 让 你 完全 理解 什么 是 one-hot 编码 以 及 如 何 
实现 one-hot 编码 ， 代 码 清单 6-1 和 代码 清单 6-2 给 出 了 两 个 简单 示例 ， 一 个 是 单词 级 的 one-hot 
编码 ， 男 一 个 是 字符 级 的 one-hot 编码 。 











清单 6-1 单词 级 的 one-hot 编码 ( 简单 示例 ) 
初始 数据 : 每 个 样本 是 列表 的 一 个 元 素 〈 本 例 中 





的 样本 是 一 个 句子 ， 但 也 可 以 是 一 整 篇 文档 利用 split 方法 对 样本 进行 分 词 。 在 实际 应 用 中 ， 
import numpy as np 还 需要 从 样本 中 去 掉 标 点 和 特殊 字符 
samples = ['The cat sat on the mat.', 'The dog ate my homework.'] 


token_index = {} ”< 一 构建 数据 中 所 有 标记 的 索引 
for sample in samples: 
for word in sample.split(): < 
if word not in token_ index: 
token_ index[word] = len(token index) + 1 | 








为 每 个 唯一 单词 指定 一 个 唯一 索引 。 
注意 ， 没 有 为 索引 编号 0 指定 单词 
对 样本 进行 分 词 。 只 考虑 每 个 

样本 前 max_length 个 单词 





max_length = 10 4 


results = np.zeros (shape=(len(samples), 
max_length, 





max(token index.values()) + 1)) 
for i, sample in enumerate(samples): 
for j, word in list(enumerate(sample.split()))[:max_ length]: 
index = token index.get (word) 
results[i, j, index] = 1. 


将 结果 保存 在 results 中 
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代码 清单 6-2 ”字符 级 的 one-hot 编码 ( 简单 示例 ) 


import string 


samples = ['The cat sat on the mat.', 'The dog ate my homework.'] 
characters = string.printable < 
token_ index = dict (zip(range(1, len(characters) + 1), characters)) 





max_length = 50 


results = np.zeros((len(samples), max_length, max(token index.keys()) + 1)) 
for i, sample in enumerate (samples): 
for j, character in enumerate(sample): 所 有 可 打印 的 ASCII 字符 
index = token index.get (character) 
results[i, j, index] = 1. 


注意 ，Keras 的 内 置 函 数 可 以 对 原始 文本 数据 进行 单词 级 或 字符 级 的 one-hot 编码 。 你 应 该 
使 用 这 些 函 数 ， 因 为 它们 实现 了 许多 重要 的 特性 ， 比 如 从 字符 串 中 去 除 特殊 字符 、 只 考虑 数据 
集中 前 Y 个 最 常见 的 单词 (这 是 一 种 常用 的 限制 ， 以 避免 处 理 非 常 大 的 输入 向 量 空间 )。 


代码 清单 6-3 用 Keras 实现 单词 级 的 one-hot 编码 





创建 一 个 分 词 器 (tokenizer)， 设 置 


from keras.preprocessing.text import Tokenizer 为 只 考虑 前 1000 个 最 常见 的 单词 
samples = ['The cat sat on the mat.', 'The dog ate my homework.'] 
tokenizer = Tokenizer (num_ words=1000) + 





tokenizer.fit_on texts (samples) < 一 构建 单词 索引 


sequences = tokenizer.texts_to_sequences (samples) < 一 将 字符 串 转 换 为 整数 索引 组 成 的 列表 





one_hot_results = tokenizer.texts_ to matrix(samples, mode='binary') 


word_index = tokenizer.word_index < 一 找 回 单词 索引 也 可 以 直接 得 到 one-hot 二 进 制 表示 。 
print ('Found %s unique tokens.' % lenl(word index)) 这 个 分 词 器 也 支持 除 one-hot 编码 外 


的 其 他 向 量化 模式 
one-hot 编码 的 一 种 变 体 是 所 谓 的 one-hot 散 列 技 巧 (one-hot hashing trick )， 如 果 词 表 中 唯 
一 标记 的 数量 太 大 而 无 法 直接 处 理 ， 就 可 以 使 用 这 种 技巧 。 这 种 方法 没有 为 每 个 单词 显 式 分 配 
一 个 索引 并 将 这 些 索 引 保存 在 一 个 字典 中 ， 而 是 将 单词 散 列 编码 为 固定 长 度 的 向 量 ， 通 常用 一 
个 非常 简单 的 散 列 函数 来 实现 。 这 种 方法 的 主要 优点 在 于 ， 它 避免 了 维护 一 个 显 式 的 单词 索引 ， 
从 而 节省 内 存 并 允许 数据 的 在 线 编码 ( 在 读 取 完 所 有 数据 之 前 ， 你 就 可 以 立刻 生成 标记 向 量 )。 
这 种 方法 有 一 个 缺点 ， 就 是 可 能 会 出 现 散 列 冲突 (hash collision )， 即 两 个 不 同 的 单词 可 能 具有 
相同 的 散 列 值 ， 随 后 任何 机 器 学 习 模 型 观察 这 些 散 列 值 ， 都 无 法 区 分 它们 所 对 应 的 单词 。 如 果 
散 列 空间 的 维度 远大 于 需要 散 列 的 唯一 标记 的 个 数 ， 散 列 冲突 的 可 能 性 会 减 小 。 

















代码 清单 6-4 ”使 用 散 列 搁 巧 的 单词 级 的 one-hot 编码 ( 简单 示例 ) 


samples = ['The cat sat on the mat.', 'The dog ate my homework.'] 
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Qimensionality = 1000 

max length = 10 mon 
那么 会 遇 到 很 多 散 列 冲突 ， 这 会 降低 这 种 编码 方法 的 准确 性 

results = np.zeros((len(samples), max_length, dimensionality)) 

for i, sample in enumerate(samples): 





for j, word in list(enumerate(sample.split()))[:max length]: 
index = abs(hash(word)) % dimensionality 
results[i, j, index] = 1. 将 单词 散 列 为 0~1000 范围 内 的 
一 个 随机 整数 索引 


6.1.2 ”使 用 词 藤 入 


将 单词 与 向 量 相关 联 还 有 男 一 种 常用 的 强大 方法 ， 就 是 使 用 密集 的 词 向 量 ( word vector )， 
也 叫 词 宜 入 (word embedding )。one-hot 编码 得 到 的 向 量 是 二 进 制 的 、 稀 玖 的 ( 绝 大 部 分 元 素 都 
是 0)、 维 度 很 高 的 ( 维度 大 小 等 于 词 表 中 的 单词 个 数 )， 而 词 谍 和 是 低 维 的 浮 点 数 向 量 〈( 即 密 
集 向 量 ， 与 稀 玻 向 量 相 对 )， 参 见 图 6-2。 与 one-hot 编码 得 到 的 词 向 量 不 同 ,， 词 租 入 是 从 数据 中 
学 习 得 到 的 。 常 见 的 词 向 量 维度 是 256、512 或 1024 ( 处 理 非常 大 的 词 表 时 )。 与 此 相对 ，one- 
hot 编码 的 词 向 量 维度 通常 为 20 000 或 更 高 ( 对 应 包含 20 000 个 标记 的 词 表 )。 因 此 ， 词 问 量 可 
以 将 更 多 的 信息 蹇 人 更 低 的 维度 中 。 





































































































本 | 
El 
one-hot 词 向 量 ， 词 朋 入 : 
- 稀 玻 - 密集 
-高 维 - 低 维 
- 硬 编码 - 从 数据 中 学 习 得 到 








图 6-2 ”one-hot 编码 或 one-hot 散 列 得 到 的 词 表示 是 稀 玖 的 、 高 维 的 、 便 编码 的 ， 
而 词 能 入 是 密集 的 、 相 对 低 维 的 ， 而 且 是 从 数据 中 学 习 得 到 的 
获取 词 能 入 有 两 种 方法 。 
口 在 完成 主任 务 〈 比如 文档 分 类 或 情感 预测 ) 的 同时 学 习 词 戏 入 。 在 这 种 情况 下 ， 一 开始 
是 随机 的 词 向 量 ， 然 后 对 这 些 词 向 量 进 行 学 习 ， 其 学 习 方 式 与 学 习 神 经 网 络 的 权重 相同 。 
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口 在 不 同 于 待 解 决 问题 的 机 絮 学 习 任务 上 预计 算 好 词 冤 和信， 然后 将 其 加 载 到 模型 中 。 这 些 
词 舱 入 叫 作 预 训练 词 袜 入 ( pretrained word embedding )。 
我 们 来 分 别 看 一 下 这 两 种 方法 。 


1. 利用 Embegdging 层 学 习 词 宜 入 

要 将 一 个 词 与 一 个 密集 向 量 相关 联 , 最 简单 的 方法 就 是 随机 选择 向 量 。 这 种 方法 的 问题 在 于 ， 
得 到 的 能 入 空间 没有 任何 结构 。 例 如 ，accurate 和 exact 两 个 词 的 谋 入 可 能 完全 不 同 ， 尽 管 它们 
在 大 多 数 句 子 里 都 是 可 以 互 换 的 ~“。 深 度 神经 网 络 很 难 对 这 种 杂乱 的 、 非 结构 化 的 租 入 空 间 进 行 
党 习 。 

说 得 更 抽象 一 点 ， 词 向 量 之 间 的 几何 关系 应 该 表示 这 些 词 之 间 的 语义 关系 。 词 艇 入 的 作用 
应 该 是 将 人 类 的 语言 映射 到 几何 空间 中 。 例 如 ， 在 一 个 合理 的 仍 入 空间 中 ， 同 义 词 应 该 被 让 人 
到 相似 的 词 向 量 中 ， 一 般 来 说 ， 任 意 两 个 词 向 量 之 间 的 几何 距离 ( 比如 L2 距离 ) 应 该 和 这 两 个 
词 的 语义 距离 有 关 表示 不 同事 物 的 词 被 伐 人 到 相隔 很 远 的 点 ， 而 相关 的 词 则 更 加 靠近 )。 除 了 
距离 ， 你 可 能 还 希望 般 入 空间 中 的 特定 方向 也 是 有 意义 的 。 为 了 更 清楚 地 说 明 这 一 点 ， 我 们 来 
看 一 个 具体 示例 。 

在 图 6-3 中 ， 四 个 词 被 垦 入 在 二 维 平面 上 ,这 四 个 词 分 别 是 cat ( 猫 )、dog ( 狗 )、wolf( 狠 ) 
和 tiger ( 虎 )。 对 于 我 们 这 里 选择 的 向 量 表 示 ， 这 些 词 之 间 的 某 些 语义 关系 可 以 被 编码 为 几何 
变换 。 例 如 ， 从 cat 到 tiger 的 向 量 与 从 dog 到 wolf 的 向 量 相等 ， 这 个 向 量 可 以 被 解释 为 “从 宠 
物 到 野生 动物 ”向 量 。 同 样 ， 从 dog 到 cat 的 向 量 与 从 wolf 到 tiger 的 向 量 也 相等 ， 它 可 以 被 解 
释 为 “从 犬 科 到 猫 科 ” 向 量 。 
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图 6-3 词 租 入 空间 的 简单 示例 


在 真实 的 词 舱 入 空间 中 ,常见 的 有 意义 的 几何 变换 的 例子 包括 “性 别 ” 向 量 和 “复数 ” 癌 量 。 
例如 ,将 king (国王 ) 向量 加 上 female (女性 ) 向量, 得 到 的 是 queen (女王 ) 向量。 将 king( 国王) 
回 量 加 上 plural (复数 ) 向 量 , 得 到 的 是 kings 向 量 。 词 舱 入 空间 通常 具有 几 千 个 这 种 可 解释 的 、 
并 且 可 能 很 有 用 的 癌 量 。 

有 没有 一 个 理想 的 词 般 入 空间 ， 可 以 完美 地 映射 人 类 语言 ， 并 可 用 于 所 有 自然 语言 处 理 任 
务 ? 可 能 有 ， 但 我 们 尚未 发 现 。 此 外 ， 也 不 存在 人 类 语言 ( human language ) 这 种 东西 。 世 界 上 





























GD 两 个 词 的 中 文 含义 都 是 “精确 的 "。 一 一 译 者 注 
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有 许多 种 不 同 的 语言 ， 而 且 它 们 不 是 同 构 的 ， 因 为 语言 是 特定 文化 和 特定 环境 的 反射 。 但 从 更 
实际 的 角度 来 说 ， 一 个 好 的 词 般 入 空间 在 很 大 程度 上 取决 于 你 的 任务 。 英 语 电 影评 论 情感 分 析 
模型 的 完美 词 铭 入 空间 ， 可 能 不 同 于 英语 法 律 文档 分 类 模型 的 完美 词 般 入 空间 ， 因 为 某 些 语义 
关系 的 重要 性 因 任务 而 异 。 

因此 ， 合 理 的 做 法 是 对 每 个 新 任务 都 学 习 一 个 新 的 对 入 空间 。 坟 和 运 的 是 ， 反 回 传 播 让 这 种 
学 习 变 得 很 简单 ， 而 Keras 使 其 变 得 更 简单 。 我 们 要 做 的 就 是 学 习 一 个 层 的 权重 ， 这 个 层 就 是 
Embedding 层 。 




















清单 6-5 ”将 一 个 Embedqding 层 实例 化 

from keras.layers import Embedding Embedding 层 至 少 需要 两 个 参数 : 
标记 的 个 数 〈 这 里 是 1000， 即 最 
大 单词 索引 +1) 和 嵌入 的 维度 这 
里 是 64) 


embedding_layer = Embedding(1000, 64) 


最 好 将 Embedding 层 理 解 为 一 个 字典 ， 将 整数 索引 ( 表示 特定 单词 ) 映射 为 密集 向 量 。 它 
接收 整数 作为 输入 ， 并 在 内 部 字典 中 查找 这 些 整 数 ， 然 后 返回 相关 联 的 向 量 。Embedding 层 实 
际 上 是 一 种 字典 查找 ( 见 图 6-4 )。 











单词 索引 一 > Embedding 层 一 > 对 应 的 词 向 量 


6-4 Embedding 层 


Embedding 层 的 输入 是 一 个 二 维 整 数 张 量 ， 其 形状 为 (samples， sequence_length)， 
每 个 元 素 是 一 个 整数 序列 。 它 能 够 舱 入 长 度 可 变 的 序列 ， 例 如 ， 对 于 前 一 个 例子 中 的 
Embedding 层 ， 你 可 以 输入 形状 为 (32，10) (32 个 长 度 为 10 的 序列 组 成 的 批量 ) 或 (64， 
15) (64 个 长 度 为 15 的 序列 组 成 的 批量 ) 的 批量 。 不 过 一 批 数据 中 的 所 有 序列 必须 具有 相同 的 
长 度 ( 因为 需要 将 它们 打包 成 一 个 张 量 ), 所 以 较 短 的 序列 应 该 用 0 填充 , 较 长 的 序列 应 该 被 截断 。 

这 个 Embedding 层 返回 一 个 形状 为 (samples,，, sequence length, embedding_ 
dimensionality) 的 三 维 浮 点 数 张 量 。 然 后 可 以 用 RNN 层 或 一 维 卷 积 层 来 处 理 这 个 三 维 张 量 
( 二 者 都 会 在 后 面 介绍 )。 

将 一 个 Embedding 层 实例 化 时 ， 它 的 权重 ( 即 标记 向 量 的 内 部 字典 ) 最 开始 是 随机 的 ， 与 
其 他 层 一 样 。 在 训练 过 程 中 ， 利 用 反问 传播 来 逐渐 调节 这 些 词 问 量 ， 改 变 空间 结构 以 便 下 游 模 
型 可 以 利用 。 一 旦 训练 完成 ， 和 能 入 空间 将 会 展示 大 量 结构 ， 这 种 结构 专门 针对 训练 模型 所 要 解 
决 的 问题 。 

我 们 将 这 个 想法 应 用 于 你 熟悉 的 IMDB 电影 评论 情感 预测 任务 。 首 先 ， 我 们 需要 快速 准备 
数据 。 将 电影 评论 限制 为 前 10 000 个 最 常见 的 单词 (第 一 次 处 理 这 个 数据 集 时 就 是 这 么 做 的 )， 
然后 将 评论 长 度 限 制 为 只 有 20 个 单词 。 对 于 这 10 000 个 单词 ， 网 络 将 对 每 个 词 都 学 习 一 个 8 
维 能 入 ， 将 输入 的 整数 序列 〈 二 维 整数 张 量 ) 转换 为 驹 入 序列 ( 三维 浮 点 数 张 量 )， 然 后 将 这 个 
张 量 展 平 为 二 维 ， 最 后 在 上 面 训练 一 个 Dense 层 用 于 分 类 。 
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代码 清单 6-6 加载 IMDB 数据 ， 准 备用 于 Empbedqing 层 


from keras.datasets import imdb 


from keras.layers import preprocessing 在 这 么 多 单词 后 截断 文本 (这 些 单词 都 属于 
max_features = 10000 < 一 作为 特征 的 单词 个 数 前 max_features 个 最 常见 的 单词 ) 





maxlen = 20 4 


(x_train, y_train), (x _ test, y_test) = imdb.load datal 


num words=max_features) < 一 将 数据 加 载 为 整数 列表 


x_train = preprocessing.sequence.pad_ sequences (x_train, maxlen=maxlen) 
x_test = preprocessing.sequence.pad sequences (x_test, maxlen=maxlen) 


将 整数 列表 转换 成 形状 为 (samples， 
maxlen) 的 二 维 整数 张 量 





代码 清单 6-7 在 IMDB 数据 上 使 用 Embeaqing 层 和 分 类 央 


from keras.models import Sequential 
from keras.layers import Flatten, Dense, Embedding 


指定 Embeddaing 层 的 最 大 输入 长 度 ， 以 
便 后 面 将 说 入 输入 展 平 。Embedding 层 


model = Sequential () 激活 的 形状 为 (samples, maxlen,， 8) 
model.add (Embedding(10000, 8, input_length=maxlen)) 4 





model.add (Flatten()) < 一 将 三 维 的 骨 入 张 量 展 平成 形状 为 (samples，maxlen * 8) 的 二 维 张 量 
model.add (Dense(1, activation='sigmoid')) < 一 在 上 面 添加 分 类 器 


modqel .compile(optimizer='zrmsprop'，1oss='binary_crossenttropy ' ，metrics=['acc']) 
model .summary () 





history = model.fit (x train, y_train, 
epochs=10, 
batch_ size=32, 
validation split=0.2) 

得 到 的 验证 精度 约 为 76%， 考 虑 到 仅 查 看 每 条 评论 的 前 20 个 单词 ， 这 个 结果 还 是 相当 不 错 
nl 
每 个 单词 单独 处 理 ， 而 没有 考虑 单词 之 间 的 关系 和 句子 结构 ( 举 个 例子 ， 这 个 模型 可 能 会 将 this 
movie is a bomb 和 this movie is the bomb 两 条 都 归 为 负 面 评论 0 )。 更 好 的 做 法 是 在 敌人 序列 上 添 
加 循环 层 或 一 维 卷 积 层 ， 将 每 个 序列 作为 整体 来 学 习 特 征 。 这 也 是 接 下 来 几 节 的 重点 。 


2. 使 用 预 训练 的 词 戏 入 
有 时 可 用 的 训练 数据 很 少 ， 以 至 于 只 用 手头 数据 无 法 学 习 适 合 特定 任务 的 词 嵌 入 。 那 么 应 
该 怎么 办 ? 
你 可 以 从 预计 算 的 符 入 空间 中 加 载 嵌 入 向 量 ( 你 知道 这 个 租 入 空间 是 高 度 结构 化 的 ， 并且 
具有 有 用 的 属性 ， 即 抓 住 了 语言 结构 的 一 般 特 点 )， 而 不 是 在 解决 问题 的 同时 学 习 词 做 入 。 在 自 
然 语言 处 理 中 使 用 预 训练 的 词 褒 入 ， 其 背后 的 原理 与 在 图 像 分 类 中 使 用 预 训练 的 卷 积 神经 网 络 

















Q 第 一 名 的 意思 是 “这 部 电影 很 烂 ”， 而 第 二 名 的 意思 是 “这 部 电影 很 棒 "。 一 一 译 者 注 
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是 一 样 的 : 没有 足够 的 数据 来 自己 学 习 真 正 强大 的 特征 ， 但 你 需要 的 特征 应 该 是 非常 通用 的 ， 
比如 常见 的 视觉 特征 或 语义 特征 。 在 这 种 情况 下 ， 重 复 使 用 在 其 他 问题 上 学 到 的 特征 ， 这 种 做 
法 是 有 道理 的 。 

这 种 词 租 入 通常 是 利用 词 频 统 计 计 算得 出 的 ( 观察 哪些 词 共同 出 现在 句子 或 文档 中 )， 用 到 
的 技术 很 多 , 有 些 涉 及 神经 网 络 , 有 些 则 不 涉及 。Bengio 等 人 在 21 世纪 初 首 先 研 究 了 一 种 思路 ， 
就 是 用 无 监督 的 方法 计算 一 个 密集 的 低 维 词 嵌 入 空间 吓 , 但 直到 最 有 名 且 最 成 功 的 词 租 和 方案 之 
一 word2vec 算法 发 布 之 后 ， 这 一 思路 才 开始 在 研究 领域 和 工业 应 用 中 取得 成 功 。word2vec 算法 
由 Google 的 Tomas Mikolov 于 2013 年 开发 ， 其 维度 抓 住 了 特定 的 语义 属性 ， 比 如 性 别 。 

有 许多 预计 算 的 词 艇 人 和 人 数据库， 你 都 可 以 下 载 并 在 Keras 的 Embedadaing 层 中 使 用 。 
word2vec 就 是 其 中 之 一 。 男 一 个 常用 的 是 GloVe ( global vectors for word representation ， 词 表示 
全 局 向 量 )， 由 斯 坦 福 大 学 的 研究 人 员 于 2014 年 开发 。 这 种 租 入 方法 基于 对 词 共 现 统计 算 阵 进 
行 因 式 分 解 。 其 开发 者 已 经 公开 了 数 百 万 个 英文 标记 的 预计 算 能 入 ， 它 们 都 是 从 维基 百科 数据 
和 Common Crawl 数据 得 到 的 。 

我 们 来 看 一 下 如 何在 Keras 模型 中 使 用 GloVe 能 入 。 同 样 的 方法 也 适用 于 word2vec 舰 入 或 
其 他 词 谍 人 数据 库 。 这 个 例子 还 可 以 改进 前 面 刚刚 介绍 过 的 文本 分 词 技 术 ， 即 从 原始 文本 开始 ， 
一 步 步 进行 处 理 。 


6.1.3 ”整合 在 一 起 : 从 原始 文本 到 词 能 入 


本 节 的 模型 与 之 前 刚刚 见 过 的 那个 类 似 : 将 句子 般 入 到 向 量 序 列 中 ， 然 后 将 其 展 平 ， 最 后 
在 上 面 训 练 一 个 Dense 层 。 但 此 处 将 使 用 预 训练 的 词 租 入 。 此 外 ， 我 们 将 从 头 开 始 ， 先 下 载 
IMDB 原始 文本 数据 ， 而 不 是 使 用 Keras 内 置 的 已 经 预先 分 词 的 IMDB 数据 。 


1. 下 载 IMDB 数据 的 原始 文本 

首先 ， 打 开 http:/mng.bz/0tIo， 下 载 原 始 IMDB 数据 集 并 解压 。 

接 下 来 ， 我 们 将 训练 评论 转换 成 字符 串 列表 ， 每 个 字符 串 对 应 一 条 评论 。 你 也 可 以 将 评论 
标签 (正面 /负面 ) 转换 成 1abels 列表 。 











代码 清单 6-8 ”处理 IMDB 原始 数据 的 标签 


import os 





imdb_dir = '/Users/fchollet/Downloads/aclImdb' 
train dir S00. Dath.iolin(indb dir, tralrn’) 


labels = [] 
texts = [] 


for label type in ['neg', 'pos']: 
dir name = os.path.join(train dir, label_ type) 
for fname in os.listdir(dir name): 





QD BENGIO Y, SCHWENK H, SENECAL J S, et al. Neural probabilistic language models [M]. Berlin, Heidelberg: Springer 2003. 
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1 famel[=4] -三 二 "ts 
f = open(os.path.join(dir name, fname)) 
texts.append (f.read()) 


f.,close!() 

if label_ type == 'neg': 
labels.append(0) 

else: 


labels.append(1) 


2. 对 数据 进行 分 词 

利用 本 节 前 面 介绍 过 的 概念 ， 我 们 对 文本 进行 分 词 ， 并 将 其 划分 为 训练 集 和 验证 集 。 因 为 
预 训练 的 词 戏 入 对 训练 数据 很 少 的 问题 特别 有 用 ( 否则 , 针对 于 具体 任务 的 岩 入 可 能 效果 更 好 )， 
所 以 我 们 又 添加 了 以 下 限制 : 将 训练 数据 限定 为 前 200 个 样本 。 因 此 ， 你 需要 在 读 取 200 个 样 
本 之 后 学 习 对 电影 评论 进行 分 类 。 





代码 清单 6-9 对 IMDB 原始 数据 的 文本 进行 分 词 
from keras.preprocessing.text import Tokenizer 
from keras.preprocessing.sequence import pad_ sequences 
import numpy as np 





maxlen = 100 < 一 在 100 个 单词 后 截断 评论 
training_samples = 200 < 一 在 200 个 样本 上 训练 
validation_samples = 10000 < 一 在 10 000 个 样本 上 验证 
max_words = 10000 < 一 只 考虑 数据 集中 前 10 000 个 最 常见 的 单词 


tokenizer = Tokenizer (num words=max_ words) 
tokenizer.fit_ on texts (texts) 
sequences = tokenizer.texts_ to_ sequences (texts) 


word_index = tokenizer.word_ index 


9 


print('Found %s unique tokens.' % len(word index)) 
data = pad_sequences (sequences, maxlen=maxlen) 


labels = np.asarray (labels) 
print('Shape of data tensor:', data.shape) 
print('Shape of label tensor:', labels.shape) 


indices = np.arange (data.shapel[0]) 
np.random.shuffle(indices) 


将 数据 划分 为 训练 集 和 验证 集 ， 但 首先 


data = datalindices] 要 打 乱 数据 ， 因 为 一 开始 数据 中 的 样本 
labels = labels[indices] 是 排 好 序 的 (所 有 负面 评论 都 在 前 面 ， 
然后 是 所 有 正面 评论 ) 


x train = data[:training_ samples] 

y_train = labels[:training_samples] 

x_val = dataltraining samples: training samples + validation samples] 
y_val = labels[training_ samples: training_ samples + validation samples] 
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3. 下 载 GloVe 词典 入 

打开 https://nlp.stanford.edu/projects/glove， 下 载 2014 年 英文 维基 百科 的 预计 算 般 入。 这 是 
一 个 822 MB 的 压缩 文件 ,文件 名 是 glove.6B.zip， 里 面包 含 400 000 个 单词 (或 非 单词 的 标记 ) 
的 100 维 腻 入 向 量 。 解 压 文件 。 


4. 对 艇 入 进行 预 处 理 
我 们 对 解压 后 的 文件 (一 个 .txt 文 件 ) 进行 解析 ， 构 建 一 个 将 单词 (字符 串 ) 映射 为 其 向 


量 表示 ( 数值 向 量 ) 的 索引 。 





代码 清单 6-10 解析 GloVe 词 仍 入 文件 


glove_dir = '/Users/fchollet/Downloads/glove.6B' 


embeddings_index = {} 
f = open(os.path.join(glove_ dir, ‘'glove.6B.100d.txt')) 
for line in f: 

values = line.split() 

word = Values [0] 


coefs = np.asarray (values[1:], dtype='float32') 
embeddings_index[word] = coefs 
f.close() 


print ('Found %s word vectors.' %$ len(embeddings_index)) 

接 下 来 ， 需要 构建 一 个 可 以 加 载 到 Embedqding 层 中 的 般 入 和 矩阵。 它 必须 是 一 个 形状 为 
(max_words， embedding_qdim) 的 矩阵 ， 对 于 单词 索引 (在 分 词 时 构建 ) 中 索引 为 i 的 单词 ， 
这 个 矩阵 的 元 素 i 就 是 这 个 单词 对 应 的 embedaing_dim 维和 向量。 注意 ， 索 引 0 不 应 该 代表 任何 
单词 或 标记 ， 它 只 是 一 个 占 位 符 。 





代码 清单 6-11 ”准备 Glove 词 肛 入 和 卸 阵 


embedding_dim = 100 





embedding_matrix = np.zeros ( (max words, embedding_ dim)) 
for word, i in word_ index.items(): 
if i < max words : 


embedding_vector = embeddings_index.get (word) 嵌入 索引 (embeddings_index) 
if embedding_ vector is not None: 中 找 不 到 的 词 ， 其 嵌入 向 量 全 为 0 


embedding _ matrix[i] = embedding_ Vector 
5. 定义 模型 
我 们 将 使 用 与 前 面相 同 的 模型 架构 。 
代码 清单 6-12 ”模型 定义 


from keras.models import Sequential 
from keras.layers import Embedding, Flatten, Dense 


model = Sequential () 
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model.add (Embedding (max_words, embedding dim, input_length=maxlen)) 
model.add (Flatten()) 

model.add (Dense(32, activation='relu')) 

model.add (Dense(1, activation='sigmoid') 

model .summary () 


6. 在 模型 中 加 载 GloVe 衬 入 
Embedding 层 只 有 一 个 权重 矩阵 ， 是 一 个 二 维 的 浮 点 数 和 矩阵 ， 其 中 每 个 元 素 ; 是 与 索引 i 
相关 联 的 词 向 量 。 够 简单 。 将 准备 好 的 GloVe 矩阵 加 载 到 Embedding 层 中 ， 即 模型 的 第 一 层 。 








代码 清单 6-13 ”将 预 训练 的 词 钥 入 加 载 到 Embedding 层 中 
model.layers[0] .set_weights([embedding matrix]) 
model.layers[0] .trainable = False 





此 外 ， 需 要 冻结 Embedding 层 (即将 其 trainable 属性 设 为 False )， 其 原理 和 预 训 练 的 卷 
积 神经 网 络 特征 相同 ， 你 已 经 很 熟悉 了 。 如 果 一 个 模型 的 一 部 分 是 经 过 预 训 练 的 ( 如 Embedding 
层 )， 而 另 一 部 分 是 随机 初始 化 的 〈 如 分 类 器 )， 那 么 在 训练 期 间 不 应 该 更 新 预 训 练 的 部 分 ， 以 
避免 丢失 它们 所 保存 的 信息 。 随 机 初始 化 的 层 会 引起 较 大 的 梯度 更 新 ， 会 破坏 已 经 学 到 的 特征 。 


7. 训练 模型 与 评估 模型 
编译 并 训练 模型 。 











代码 清单 6-14 ”训练 与 评估 





model .compile (optimizer='rmsprop', 
loss='binary_crossentropy', 
metrics=['acc']) 
history = model.fit (x train, y_train, 
epochs=10, 
batch_ size=32, 
validation data=(x_val, y_val)) 
model.save weights('pre trained glove_ model.h5') 


接 下 来 ,绘制 模型 性 能 随时 间 的 变化 ( 见 图 6-5 和 图 6-6 )。 








代码 清单 6-15 ”绘制 结果 


import matplotlib.pyplot as plt 


acc = history.history['acc'] 
val_acc = history.history['val_acc'] 
loss = history.history['loss' 
val_loss = history.history['val_ loss'] 





epochs = range(1, lenl(lacc) + 1) 


plt.plot (epochs, acc, 'bo', label='Training acc') 
plt.plot (epochs, val_acc, 'b', label='Validation acc') 
plt.title('Training and validation accuracy') 
plt.legend() 
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模型 很 快 就 开始 过 


.figure() 

plot (epochs, loss, 'bo', label='Training loss') 

plot (epochs, val_loss, 'b', label='Validation loss') 
title('Training angd validation loss') 

legend() 

Show () 


Training and validation loss 





® @@ Training loss 
一 一 Validation loss 














图 6-5 使 用 预 训练 词 息 入 时 的 训练 损失 和 验证 损失 
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图 6-6 使 用 预 训 练 词 徐 入 时 的 训练 精度 和 验证 精度 


拟 合 ， 考 虑 到 训练 样本 很 少 ， 这 


精度 的 波动 很 大 ， 但 似乎 达到 了 接近 60%。 


一 点 也 不 奇怪 。 出 于 同样 的 原因 ， 验 证 
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注意 ， 你 的 结果 可 能 会 有 所 不 同 。 训 练 样本 数 太 少 ， 所 以 模型 性 能 严重 依赖 于 你 选择 的 
200 个 样本 ， 而 样本 是 随机 选择 的 。 如 果 你 得 到 的 结果 很 差 ， 可 以 尝试 重新 选择 200 个 不 同 的 
随机 样本 ,你 可 以 将 其 作为 练习 (在 现实 生活 中 无 法 选择 自己 的 训练 数据 )。 

你 也 可 以 在 不 加 载 预 训 练 词 能 入 ,也 不 冻结 嵌入 层 的 情况 下 训练 相同 的 模型 。 在 这 种 情况 下 ， 
你 将 会 学 到 针对 任务 的 输入 标记 的 能 入 。 如 果 有 大 量 的 可 用 数据 ， 这 种 方法 通常 比 预 训 练 词 租 
入 更 加 强大 ， 但 本 例 只 有 200 个 训练 样本 。 我 们 来 试 一 下 这 种 方法 ( 见 图 6-7 和 图 6-8 )。 


代码 清单 6-16 ”在 不 使 用 预 训练 词 角 入 的 情况 下 ， 训 练 相同 的 模型 
from keras.models import Sequential 
from keras.layers import Embedding, Flatten, Dense 





model = Sequential () 

model.add (Embedding (max_words, embedding dim, input_length=maxlen)) 
model.add (Flatten()) 

model.add (Dense(32, activation='relu')) 

model.add (Dense(1, activation='sigmoid')) 

model .summary () 





model.compile(optimizer='rmsprop', 
loss='binary_crossentropy', 
metrics=['acc']) 
history = model.fit (x train, y_train, 
epochs=10, 
batch_ size=32, 
validation data=(x_val, y_val)) 





Training and validation loss 
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图 6-7 不 使 用 预 训练 词 艇 入 时 的 训练 损失 和 验证 损失 
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图 6-8 不 使 用 预 训练 词 虞 入 时 的 训练 精度 和 验证 精度 
验证 精度 停留 在 50% 多 一 点 。 因 此 ， 在 本 例 中 ， 预 训练 词 嵌 入 的 性 能 要 优 于 与 任务 一 起 学 
习 的 租 入 。 如 果 增 加 样本 数量 ,情况 将 很 快 发 生变 化 ， 你 可 以 把 它 作 为 一 个 练习 。 
最 后 ,我们 在 测试 数据 上 评估 模型 。 首 先 ， 你 需要 对 测试 数据 进行 分 词 。 





代码 清单 6-17 ”对 测试 集 数 据 进 行 分 词 


test_dir = os.path.join(imdb dir, 'test') 


labels = [] 
texts = [] 


for label type in ['neg', 'pos']: 
dir name = os.path.join(test_ dir, label_ type) 
for fname in sorted(os.listdir(dir name)): 
if fnamel[l=4:] == "txt": 
f = open(os.path.join(dir name, fname)) 
texts.append (f.read()) 





f.closel() 

if label type == 'neg': 
labels.append(0) 

else: 


labels.append(1) 


sequences = tokenizer.texts_ to_ sequences (texts) 
x_test = pad_ sequences (sequences, maxlen=maxlen) 
y_test = np.asarray (labels) 


接 下 来 ,加载 并 评估 第 一 个 模型 。 





代码 清单 6-18 ”在 测试 集 上 评估 模型 
model.load weights('pre trained glove model.h5') 
model.evaluate(x test, y_test) 


测试 精度 达到 了 令 人 震惊 的 56% ! 只 用 了 很 少 的 训练 样本 ,得 到 这 样 的 结果 很 不 容易 。 
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6.1.4 小结 


现在 你 已 经 学 会 了 下 列 内 容 。 

口 将 原始 文本 转换 为 神经 网 络 能 够 处 理 的 格式 。 

口 使 用 Keras 模型 的 Embedding 层 来 学 习 针对 特定 任务 的 标记 帜 入。 
口 使 用 预 训练 词 脱 入 在 小 型 自然 语言 处 理 问 题 上 获得 额外 的 性 能 提升 。 


6.2 理解 循环 神经 网 络 


目前 你 见 过 的 所 有 神经 网 络 〈 比如 密集 连接 网 络 和 卷 积 神经 网 络 ) 都 有 一 个 主要 特点 ， 那 
就 是 它们 都 没有 记忆 。 它 们 单独 处 理 每 个 输入 ， 在 输入 与 输入 之 间 没 有 保存 任何 状态 。 对 于 这 
样 的 网 络 ， 要 想 处 理 数 据点 的 序列 或 时 间 序 列 ， 你 需要 向 网 络 同时 展示 整个 序列 ， 即 将 序列 转 
换 成 单个 数据 点 。 例 如 ， 你 在 IMDB 示例 中 就 是 这 么 做 的 将 全 部 电影 评论 转换 为 一 个 大 疝 量 ， 
然后 一 次 性 处 理 。 这 种 网 络 叫 作 前 馈 网 络 ( feedforward network )。 

与 此 相反 ， 当 你 在 阅读 这 个 句子 时 ， 你 是 一 个 词 一 个 词 地 阅读 〈 或 者 说 ， 眼 睛 一 次 扫 视 一 
次 扫 视 地 阅读 )， 同 时 会 记 住 之 前 的 内 容 。 这 让 你 能 够 动态 理解 这 个 句子 所 传达 的 含义 。 生 物 智 
能 以 渐进 的 方式 处 理 信 息 ， 同 时 保存 一 个 关于 所 处 理 内 容 的 内 部 模型 ， 这 个 模型 是 根据 过 去 的 
言 息 构 建 的 ， 并 随 着 新 信息 的 进入 而 不 断 更 新 。 

循环 神经 网 络 (RNN ，recurrent neural network ) 采用 同样 的 原理 ， 不 过 是 一 个 极其 简化 的 
版 本 : 它 处 理 序列 的 方式 是 ， 遍 历 所 有 序列 元 素 ， 并 保存 一 个 状态 (state )， 其 中 包含 与 已 查看 
内 容 相 关 的 信息 。 实 际 上 ，RNN 是 一 类 具有 内 部 环 的 神经 网 络 ( 见 图 6-9 )。 在 处 理 两 个 不 同 的 
独立 序列 ( 比如 两 条 不 同 的 IMDB 评论 ) 之 间 ，RNN 状态 会 被 重 置 ， 因 此 ， 你 仍 可 以 将 一 个 序 
列 看 作 单个 数据 点 ， 即 网 络 的 单个 输入 。 真 正 改变 的 是 ， 数 据点 不 再 是 在 单个 步骤 中 进行 处 理 ， 
相反 ， 网 络 内 部 会 对 序列 元 素 进 行 遍历 。 
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图 6-9 循环 网 络 : 带 有 环 的 网 络 


为 了 将 环 (loop ) 和 状态 的 概念 解释 清楚 ,我们 用 Numpy 来 实现 一 个 简单 RNN 的 前 向 传递 。 
这 个 RNN 的 输入 是 一 个 张 量 序列 ， 我 们 将 其 编码 成 大 小 为 (timesteps， input_features) 
的 二 维 张 量 。 它 对 时 间 步 (timestep ) 进行 遍历 ， 在 每 个 时 间 步 ， 它 考虑 t 时 刻 的 当前 状态 与 t 
时 刻 的 输入 [形状 为 (input_ features,) ]， 对 二 者 计算 得 到 t 时 刻 的 输出 。 然 后 ， 我 们 将 
下 一 个 时 间 步 的 状态 设置 为 上 一 个 时 间 步 的 输出 。 对 于 第 一 个 时 间 步 ， 上 一 个 时 间 步 的 输出 没 
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有 定义 ， 所 以 它 没有 当前 状态 。 因 此 ， 你 需要 将 状态 初始 化 为 一 个 全 零 向 量 ， 这 叫 作 网 络 的 初 
始 状态 (initial state )。 
RNN 的 伪 代 码 如 下 所 示 。 


代码 清单 6-19 RNN 伪 代 码 
state_t = 0 二 一 t 上 时刻 的 状态 
for input_t in input_sequence: < 一 对 序列 元 素 进行 遍历 
output_t = f(input_t, state 七 ) 
state 上 = output 上 < 一 前 一 次 的 输出 变 成 下 一 次 迭代 的 状态 
你 甚至 可 以 给 出 具体 的 函数 £: 从 输入 和 状态 到 输出 的 变换 ， 其 参数 包括 两 个 矩阵 (w 和 U) 
和 一 个 偏 置 向 量 。 它 类 似 于 前 馈 网 络 中 密集 连接 层 所 做 的 变换 。 


代码 清单 6-20 ”更 详细 的 RNN 伪 代 码 
State t = 0 
for input t in input_sequence: 
output_t = activation(dot (W, input_t) + dot(U, state t) + b) 
state t = output 七 





为 了 将 这 些 概 念 的 含义 解释 得 更 加 清楚 ， 我 们 为 简单 RNN 的 前 向 传播 编写 一 个 简单 的 Numpy 
实现 。 





代码 清单 6-21 简单 RNN 的 Numpy 实现 


import numpy as np 


timesteps = 100 < 一 输入 序列 的 时 间 步 数 





input_features = 32 - 输入 特征 空间 的 维度 

output_features = 64 一 输出 特征 空间 的 维度 输入 数据 : 随机 噪声 ， 
, 仅 作 为 示例 

inputs = np.random.random( (timesteps, input_features)) 

state t = np.zeros((output_features, )) < 一 初始 状态 : 全 零 向 量 

W = np.random.random( (output_features, input_features)) 

U = np.random.random( (output_features, output_features)) 创建 随机 的 权重 矩阵 

b = np.random.random( (output_features,)) 


successive_outputs = [] 
for input_t in inputs: < input_t 是 形状 为 (input_features,) 的 向 量 
output_t = np.tanh(np.dot (W, input_t) + np.dot (U, state_t) + b) 





由 输入 和 当前 状态 
successive_outputs.append (output_t) | 将 这 个 输出 保存 (前 一 个 输出 ) 计 
state t = output 上 到 一 个 列表 中 算得 到 当前 输出 





final_output_sequence = np.stack(sSuccessive_outputs，axis=0) 


更 新 网 络 的 状态 ， 用 于 


A 最 终 输出 是 一 个 形状 为 (timesteps， 


output_features) 的 二 维 张 量 
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足够 简单 。 总 之 ,RNN 是 一 个 for 循环 , 它 重复 使 用 循环 前 一 次 迭代 的 计算 结果 , 仅 此 而 已 。 
当然 ,你 可 以 构建 许多 不 同 的 RNN ,它们 都 满足 上 述 定义 。 这 个 例子 只 是 最 简单 的 RNN 表 述 之 一 。 
RNN 的 特征 在 于 其 时 间 步 函数 ， 比 如 前 面 例子 中 的 这 个 函数 ( 见 图 6-10 )。 


output t = np.tanh(np.dot (W, input_t) + np.dot (U, state t) + b) 
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输入 t-1 输入 上 输入 t+1 
图 6-10 一 个 简单 的 RNN， 沿 时 间 展 开 





注意 本 例 中 ， 最终 输出 是 一 个 形状 为 (timesteps， output_features) 的 二 维 张 量 ， 其 中 
每 个 时 间 步 是 循环 在 t 时 刻 的 输出 。 输 出 张 量 中 的 每 个 时 间 步 二 包含 输入 序列 中 时 间 步 
0~t 的 信息 ， 即 关于 全 部 过 去 的 信息 。 因 此 ， 在 多 数 情况 下 ， 你 并 不 需要 这 个 所 有 输出 
组 成 的 序列 ， 你 只 需要 最 后 一 个 输出 ( 循环 结束 时 的 output_t )， 因 为 它 已 经 包含 了 整 
个 序列 的 信息 。 


6.2.1 ”Keras 中 的 循环 层 


上 面 Numpy 的 简单 实现 ， 对 应 一 个 实际 的 Keras 层 ， 即 SimpleRNN 层 。 


from keras.layers import SimpleRNN 


二 者 有 一 点 小 小 的 区 别 : SimpleRNN 层 能 够 像 其 他 Keras 层 一 样 处 理 序列 批量 ， 而 不 是 
像 Numpy 示例 那样 只 能 处 理 单 个 序列 。 因 此 ， 它 接收 形状 为 (batch_size, timesteps, 
input_features) 的 输入 ， 而 不 是 (timesteps，input_features)。 

与 Keras 中 的 所 有 循环 层 一 样 ，SimpleRNN 可 以 在 两 种 不 同 的 模式 下 运行 : 一 种 是 返回 每 
个 时 间 步 连续 输出 的 完整 序列 ， 即 形状 为 (batch_size, timesteps, output_features) 
的 三 维 张 量 ; 另 一 种 是 只 返回 每 个 输入 序列 的 最 终 输 出 ， 即 形状 为 (batch_size， output_ 
features) 的 二 维 张 量 。 这 两 种 模式 由 return_sequences 这 个 构造 函数 参数 来 控制 。 我 们 
来 看 一 个 使 用 SimpleRNN 的 例子 ， 它 只 返回 最 后 一 个 时 间 步 的 输出 。 


>>> from keras.models import Sequential 
>>> from keras.layers import Embedding, SimpleRNN 
>>> model = Sequential () 
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>>> model.add (Embedding (10000, 32)) 
>>> model .add (SimpleRNN (32)) 
>>> model .summary () 








Layer (type) Output Shape Param # 
embedding_22 (Embedding) (None, None, 32) 320000 
simple_ rnn_10 (SimpleRNN) (None, 32) 2080 





Total params: 322,080 
Trainable params: 322,080 
Non-trainable params: 0 


下 面 这 个 例子 返回 完整 的 状态 序列 。 


>>> model = Sequential () 

>>> model.add (Embedding (10000, 32)) 

>>> model.add (SimpleRNN(32, return sequences=True)) 
>>> model .summary () 








Layer (type) Output Shape Param # 
embedding_23 (Embedding) (None, None, 32) 320000 
simple_ rnn_ 11 (SimpleRNN) (None, None, 32) 2080 


Total params: 322,080 
Trainable params: 322,080 
Non-trainable params: 0 


为 了 提高 网 络 的 表示 能 力 ， 将 多 个 循环 层 逐 个 堆 琶 有 时 也 是 很 有 用 的 。 在 这 种 情况 下 ， 你 
需要 让 所 有 中 间 层 都 返回 完整 的 输出 序列 。 


>>> model = Sequentiall 
>>> model.add (Embedding (10000, 32)) 

>>> model.add (SimpleRNN(32, return sequences=True)) 
>>> model.add (SimpleRNN(32, return sequences=True)) 
>>> model.add (SimpleRNN(32, return sequences=True)) 
>>> model .add (SimpleRNN (32)) | 























>>> model .summary () 4 

Layer (type) Output Shape Param # 
nse aa Cimong) ons, on Sp) 0 
simple_ rnn_ 12 (SimpleRNN) (None, None, 32) 2080 
simple_ rnn_13 (SimpleRNN) (None, None, 32) 2080 
simple rnn_ 14 (SimpleRNN) (None, None, 32) 2080 
simple_ rnn_ 15 (SimpleRNN) (None, 32) 2080 
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Total params: 328,320 
Trainable params: 328,320 
Non-trainable params: 0 


接 下 来 我们 将 这 个 模型 应 用 于 IMDB 电影 评论 分 类 问题 。 首 先 ， 对 数据 进行 预 处 理 。 





准备 IMDB 数据 
from keras.datasets import imdb 
from keras.preprocessing import sequence 


max_features = 10000 < 一 作为 特征 的 单词 个 数 
maxlen = 500 
bateh. ge 三 本 在 这 么 多 单词 之 后 截断 文本 (这 些 单词 都 


属于 前 max_features 个 最 常见 的 单词 ) 
print ('Loading data...') 


(input_train, y_train), (input_ test, y_test) = imdb.load datal 
num_ words=max_features) 

print (len(input_train), 'train sequences') 

print (len(input_test), 'test sequences') 


print('Pad sequences (samples x time)') 

input_train = sequence.pad sequences (input_ train, maxlen=maxlen,) 
input_test = sequence.pad sequences (input_test, maxlen=maxlen) 
print ('input_ train shape:', input_train.shape) 

Drint('input test shape:', input_test.shape) 


我 们 用 一 个 Embedging 层 和 一 个 SimpleRNN 层 来 训练 一 个 简单 的 循环 网 络 。 


清单 6-23 用 Embedding 层 和 SimpleRNN 层 来 训练 模型 


from keras.layers import Dense 





model = Sequential () 

model .add (Embedding (max_features, 32)) 
model .add (SimpleRNN (32)) 

model.add (Dense(1, activation='sigmoid')) 


model.compile(optimizer='rmsprop', loss='binary_crossentropy', metrics=['acc']) 
history = model.fit(input train, y_train, 

epochs=10, 

batch_ size=128, 

validation_ split=0.2) 


接 下 来 显示 训练 和 验证 的 损失 和 精度 ( 见 图 6-11 和 图 6-12 )。 





绘制 结果 


import matplotlib.pyplot as plt 


acc = history.history['acc'] 
val_acc = history.history['val_acc'] 
loss = listory..history['loss" 
val_loss = history.history['val_ loss'] 





epochs = range(1l, lenl(lacc) + 1) 
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plot (epochs, acc, 'bo', label='Training acc') 

plot (epochs, val_acc, 'b', label='Validation acc') 
title('Training angd validation accuracy') 

legend() 


figure() 

plot (epochs, loss, 'bo', label='Training loss') 

plot (epochs, val_loss, 'b', label='Validation loss') 
title('Training angd validation loss') 


legend() 


Show () 


Training and validation loss 
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6-11 将 SimpleRNN 应 用 于 IMDB 的 训练 损失 和 验证 损失 


Training and validation accuracy 
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图 6-12 将 simpleRNN 应 用 于 IMDB 的 训练 精度 和 验证 精度 
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提醒 一 下 , 在 第 3 章 ， 处 理 这 个 数据 集 的 第 一 个 简单 方法 得 到 的 测试 精度 是 88%。 不 幸 的 是 ， 
与 这 个 基准 相 比 , 这 个 小 型 循环 网 络 的 表现 并 不 好 ( 验证 精度 只 有 85% )。 问 题 的 部 分 原因 在 于 ， 
输入 只 考虑 了 前 500 个 单词 ， 而 不 是 整个 序列 ,因此 ，RNN 获得 的 信息 比 前 面 的 基准 模型 更 少 。 
另 一 部 分 原因 在 于 ，simpleRNN 不 擅长 处 理 长 序列 ， 比 如 文本 。 

其 他 类 型 的 循环 层 的 表现 要 好 得 多 。 我 们 来 看 几 个 更 高 级 的 循环 层 。 














6.2.2 理解 LSTM 层 和 GRU 层 


SimpleRNN 并 不 是 Keras 中 唯一 可 用 的 循环 层 ， 还 有 另外 两 个 : LSTM 和 GRU。 在 实践 中 
总 会 用 到 其 中 之 一 ,因为 SimpleRNN 通常 过 于 简化 ,没有 实用 价值 。SimpleRNN 的 最 大 问题 是 ， 
在 时 刻 t， 理 论 上 来 说 ， 它 应 该 能 够 记 住 许多 时 间 步 之 前 见 过 的 信息 ， 但 实际 上 它 是 不 可 能 学 
到 这 种 长 期 依赖 的 。 其 原因 在 于 梯度 消失 问题 ( vanishing gradient problem )， 这 一 效应 类 似 于 
在 层 数 较 多 的 非 循 环 网 络 ( 即 前 馈 网 络 ) 中 观察 到 的 效应 : 随 着 层 数 的 增加 ， 网 络 最 终 变 得 无 
法 训练 。Hochreiter、Schmidhuber 和 Bengio 在 20 世纪 90 年 代 初 研究 了 这 一 效应 的 理论 原因 2。 
LSTM 层 和 GRU 层 都 是 为 了 解决 这 个 问题 而 设计 的 。 

先 来 看 LSTM 层 。 其 背后 的 长 短期 记忆 (LSTM ，long short-term memory ) 算法 由 Hochreiter 
和 Schmidhuber 在 1997 年 开发 8”， 是 二 人 研究 梯度 消失 问题 的 重要 成 果 。 

LSTM 层 是 SimpleRNN 层 的 一 种 变 体 ， 它 增加 了 一 种 携带 信息 跨越 多 个 时 间 步 的 方法 。 假 
设 有 一 条 传送 带 , 其 运行 方向 平行 于 你 所 处 理 的 序列 。 序列 中 的 信息 可 以 在 任意 位 置 跳 上 传送 带 ， 
然后 被 传送 到 更 晚 的 时 间 步 ， 并 在 需要 时 原封 不 动 地 跳 回来 。 这 实际 上 就 是 LSTM 的 原理 : 它 
保存 信息 以 便 后 面 使 用 ， 从 而 防止 较 早 期 的 信号 在 处 理 过 程 中 逐渐 消失 。 

为 了 详细 了 解 LSTM， 我 们 先 从 simpleRNN 单元 开始 讲 起 ( 见 图 6-13 )。 因 为 有 许多 个 权 
重 和 矩阵， 所 以 对 单元 中 的 w 和 两 个 矩阵 添加 下 标 字 母 o (Wo 和 Uo )， 表 示 输 出 。 
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图 6-13 讨论 LsTM 层 的 出 发 点 : SimpleRNN 层 





GD BENGIO Y, SIMARD P, FRASCONI P. Learning long-term dependencies with gradient descent is difficult [C]JVIEEE 
Transactions on Neural Networks, 1994, 5(2): 157-166. 
© HOCHREITER S$, SCHMIDHUBER J. Long short-term memory [J]. Neural Computation, 1997, 9(8): 1735-1780. 
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我 们 向 这 张 图 像 中 添加 额外 的 数据 流 ， 其 中 携带 着 跨越 时 间 步 的 信息 。 它 在 不 同 的 时 间 步 
的 值 叫 作 ct， 其 中 c 表示 携带 ( carry )。 这 些 信息 将 会 对 单元 产生 以 下 影响 : 它 将 与 输入 连接 
和 循环 连接 进行 运算 〈 通过 一 个 密集 变换 ， 即 与 权重 矩阵 作 点 积 ， 然 后 加 上 一 个 偏 置 ， 再 应 用 
一 个 激活 函数 )， 从 而 影响 传递 到 下 一 个 时 间 步 的 状态 (通过 一 个 激活 函数 和 一 个 乘法 运算 )。 
从 概念 上 来 看 ， 携 带 数 据 流 是 一 种 调节 下 一 个 输出 和 下 一 个 状态 的 方法 ( 见 图 6-14 )。 到 目前 为 
止 都 很 简单 。 
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图 6-14 从 SimpleRNN 到 LSTM: 添加 一 个 携带 轨道 
下 面 来 看 这 一 方法 的 精妙 之 处 , 即 携带 数据 流下 一 个 值 的 计算 方法 。 它 涉及 三 个 不 同 的 变换 ， 
这 三 个 变换 的 形式 都 和 SimpleRNN 单元 相同 。 
y = activation(dot (state 七 U) + dqot(input 七 ，W) + b) 
但 这 三 个 变换 都 具有 各 自 的 权重 矩阵， 我 们 分 别 用 字母 i、j 和 kk 作为 下 标 。 目 前 的 模型 | 
架构 如 下 所 示 ( 这 可 能 看 起 来 有 些 随意 ,但 请 多 一 点 耐心 )。 





代码 清单 6-25 LSTM 架构 的 详细 伪 代 码 ( 1/2 ) 


output t = activation(dot(state t, Uo) + dot(input t, Wo) + dot(C t, Vo) + bo) 


i t = activation(dot(state t, Ui) + dot (input_t, Wi) + bi) 
Et = activation(dot(state t, Uf) + dot (input_t, Wf) + bf) 
t = activation(dot (state t, Uk) + dot(input_t, Wk) + bk) 


对 i_t、f_t 和 k_t 进行 组 合 ， 可 以 得 到 新 的 携带 状态 (下 一 个 c_t )。 











Et 三 和 EE Ew 





图 6-15 给 出 了 添加 上 述 架 构 之 后 的 图 示 。LSTM 层 的 内 容 我 就 介绍 完了 。 不 算 复杂 吧 ? 
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6-15 剖析 LSTM 
如 果 要 更 哲学 一 点 ， 你 还 可 以 解释 每 个 运算 的 目的 。 比 如 你 可 以 说 , 将 ct 和 Et 相 乘 ， 


是 为 了 故意 遗忘 携带 数据 流 中 的 不 相关 信息 。 同 时 ，i_t 和 k_t 都 提供 关于 当前 的 信息 ， 可 以 
用 新 信息 来 更 新 携带 轨道 。 但 归根 结 底 ， 这 些 解释 并 没有 多 大 意义 ， 因 为 这 些 运算 的 实际 效果 
是 由 参数 化 权重 决定 的 ， 而 权重 是 以 端 到 端的 方式 进行 学 习 ， 每 次 训练 都 要 从 头 开 始 ， 不 可 能 
为 某 个 运算 赋予 特 定 的 目的 。RNN 单元 的 类 型 (如 前 所 述 ) 决定 了 你 的 假设 空间 ， 即 在 训练 期 
间 搜 索 良 好 模型 配置 的 空间 ， 但 它 不 能 决定 RNN 单元 的 作用 ， 那 是 由 单元 权重 来 决定 的 。 同 一 
个 单元 具有 不 同 的 权重 ， 可 以 实现 完全 不 同 的 作用 。 因 此 ,组 成 RNN 单元 的 运算 组 合 ， 最 好 被 
解释 为 对 搜索 的 一 组 约束 ， 而 不 是 一 种 工程 意义 上 的 设计 。 

对 于 研究 人 员 来 说 ， 这 种 约束 的 选择 〈 即 如 何 实现 RNN 单元 ) 似乎 最 好 是 留 给 最 优化 算法 
来 完成 ( 比如 遗传 算法 或 强化 学 习 过 程 )， 而 不 是 让 人 类 工程 师 来 完成 。 在 未 来 ， 那 将 是 我 们 构 
建 网 络 的 方式 。 总 之 ， 你 不 需要 理解 关于 LSTM 单元 具体 架构 的 任何 内 容 。 作 为 人 类 ， 理 解 它 
不 应 该 是 你 要 做 的 。 你 只 需要 记 住 LSTM 单元 的 作用 : 允许 过 去 的 信息 稍 后 重新 进入 ， 从 而 解 
决 梯度 消失 问题 。 














6.2.3 ”Keras 中 一 个 LSTM 的 具体 例子 


现在 我 们 来 看 一 个 更 实际 的 问题 : 使 用 LSsTM 层 来 创建 一 个 模型 ， 然 后 在 IMDB 数据 上 
训练 模型 ( 见 图 6-16 和 图 6-17 )。 这 个 网 络 与 前 面 介 绍 的 SimpleRNN 网 络 类 似 。 你 只 需 指 定 
LSTM 层 的 输出 维度 ， 其 他 所 有 参数 ( 有 很 多 ) 都 使 用 Keras 默认 值 。Keras 具有 很 好 的 默认 值 ， 
无 须 手动 调 参 ， 模 型 通常 也 能 正常 运行 。 
代码 清单 6-27 使 用 Keras 中 的 LSTM 层 


from keras.layers import LSTM 





model = Sequential () 
model.add (Embedding (max_features, 32)) 
model .add (LSTM (32)) 
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model.add(Dense(1, activation='sigmoid')) 


model .compile(optimizer='rmsprop', 
loss='binary_crossentropy', 
metrics=['acc']) 
history = model.fit(input_ train, y_train, 
epochs=10, 
batch_ size=128， 
validation_ split=0.2) 


Training and validation loss 





0.501 ® ® Trainingloss 
一 一 Validation loss 














图 6-16 将 LsTx 应 用 于 IMDB 的 训练 损失 和 验证 损失 


Training and validation accuracy 
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图 6-17 将 LsTx 应 用 于 IMDB 的 训练 精度 和 验证 精度 


这 一 次 ， 验 证 精度 达到 了 89%。 还 不 错 ， 肯 定 比 SimpleRNN 网 络 好 多 了 ， 这 主要 是 因为 
LSTM 受 梯 度 消 失 问题 的 影响 要 小 得 多 。 这 个 结果 也 比 第 3 章 的 全 连接 网 络 略 好 ， 虽 然 使 用 的 
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数据 量 比 第 3 章 要 少 。 此 处 在 500 个 时 间 步 之 后 将 序列 截断 ， 而 在 第 3 章 是 读 取 整 个 序列 。 

但 对 于 一 种 计算 量 如 此 之 大 的 方法 而 言 ， 这 个 结果 也 说 不 上 是 突破 性 的 。 为 什么 LSTM 不 
能 表现 得 更 好 ? 一 个 原因 是 你 没有 花 力气 来 调节 超 参数 ， 比 如 和 谍 入 维度 或 LSTM 输出 维度 。 男 
一 个 原因 可 能 是 缺少 正则 化 。 但 说 实话 , 主要 原因 在 于 , 适用 于 评论 分 析 全 局 的 长 期 性 结构 ( 这 
正 是 LSTM 所 擅长 的 )， 对 情感 分 析 问 题 帮助 不 大 。 对 于 这 样 的 基本 问题 ， 观 察 每 条 评论 中 出 现 
了 哪些 词 及 其 出 现 频 率 就 可 以 很 好 地 解决 。 这 也 正 是 第 一 个 全 连接 方法 的 做 法 。 但 还 有 更 加 困 
难 的 自然 语言 处 理 问 题 ， 特 别 是 问答 和 机 需 翻 译 ， 这 时 LSTM 的 优势 就 明显 了 。 


























6.2.4 小结 


现在 你 已 经 学 会 了 以 下 内 容 。 

口 循环 神经 网 络 (RNN ) 的 概念 及 其 工作 原理 。 

口 长 短期 记忆 (LSTM ) 是 什么 ， 为 什么 它 在 长 序列 上 的 效果 要 好 于 普通 RNN。 

口 如 何 使 用 Keras 的 RNN 层 来 处 理 序列 数据 。 

接 下 来 ， 我们 将 介绍 RNN 几 个 更 高 级 的 功能 ， 这 可 以 帮 你 有 效 利用 深度 学 习 序列 模型 。 


6.3 ”循环 神经 网 络 的 高 级 用 法 


本 节 将 介绍 提高 循环 神经 网 络 的 性 能 和 泛 化 能 力 的 三 种 高 级 技巧 。 学 完 本 节 ， 你 将 会 掌握 
用 Keras 实现 循环 网 络 的 大 部 分 内 容 。 我 们 将 在 温度 预测 问题 中 介绍 这 三 个 概念 。 在 这 个 问题 中 ， 
数据 点 时 间 序 列 来 自 建筑 物 屋顶 安装 的 传感器 ， 包 括 温 度 、 气 压 、 湿 度 等 ， 你 将 要 利用 这 些 数 
据 来 预测 最 后 一 个 数据 点 24 小 时 之 后 的 温度 。 这 是 一 个 相当 有 挑战 性 的 问题 ， 其 中 包含 许多 处 
理 时 间 序 列 时 经 常 遇 到 的 困难 。 

我 们 将 会 介绍 以 下 三 种 技巧 。 
口 循环 dropout (recurrent dropout )。 这 是 一 种 特殊 的 内 置 方法 ， 在 循环 层 中 使 用 dropout 
来 降低 过 拟 合 。 
口 堆 且 循环 层 ( stacking recurrent layers )。 这 会 提高 网 络 的 表示 能 力 (代价 是 更 高 的 计算 负 
入 )。 
口 双向 循环 层 (bidirectional recurrent layer )。 将 相同 的 信息 以 不 同 的 方式 呈现 给 循环 网 络 ， 

可 以 提高 精度 并 缓解 遗忘 问题 。 




















6.3.1 温度 预测 问题 


到 目前 为 止 ， 我 们 遇 到 的 唯一 一 种 序列 数据 就 是 文本 数据 ， 比 如 IMDB 数据 集 和 路 透 社 
数据 集 。 但 除了 语言 处 理 ， 其 他 许多 问题 中 也 都 用 到 了 序列 数据 。 在 本 方 的 所 有 例子 中 ， 我 
们 将 使 用 一 个 天 气 时 间 序 列 数据 集 ， 它 由 德国 耶 拿 的 马克 思 … 普 朗 区 生物 地 球 化 学 研究 所 的 气 
象 站 记录 。 
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在 这 个 数据 集中 ， 每 10 分 钟 记录 14 个 不 同 的 量 ( 比如 气温 、 和 气压、 湿度 、 风 向 等 )， 其 中 
包含 多 年 的 记录 。 原 始 数据 可 追溯 到 2003 年 ， 但 本 例 仅 使 用 2009 一 2016 年 的 数据 。 这 个 数据 
集 非 常 适合 用 来 学 习 处 理 数 值 型 时 间 序 列 。 我 们 将 会 用 这 个 数据 集 来 构建 模型 ， 输 入 最 近 的 一 
些 数据 ( 几 天 的 数据 点 )， 可 以 预测 24 小 时 之 后 的 气温 。 

下 载 并 解压 数据 ， 如 下 所 示 。 


cd ~/Downloads 

mkdir jena_ climate 

cd jena_climate 

wget https://s3.amazonaws.com/keras-datasets/jena_ climate 2009 2016.csv.zip 
unzip jena_ climate 2009_ 2016.csv.zZip 


来 观察 一 下 数据 。 





代码 清单 6-28 ”观察 耶 拿 天 气 数 据 集 的 数据 


import os 


data dir = '/users/fchollet/Downloads/jena_climate' 
fname = os.path.join(data dir, 'jena climate 2009 2016.csv') 


f = open (fname) 
data = f.read!() 
f.closel() 


lines = data.split('\n') 
header = lines[0] .split(',') 
lines = lines[1:] 








print (header) 
print (len (lines)) 


从 输出 可 以 看 出 ， 共 有 420 551 行 数据 ( 每 行 是 一 个 时 间 步 ， 记 录 了 一 个 日 期 和 14 个 与 天 | 
气 有 关 的 值 )， 还 输出 了 下 列表 头 。 


["Date Time", 

"BS (mbar)™, 

"TT (degC) "; 
"TBO (KR) 
"Tdew (degC)", 
“Eh: (SB) DY:; 

"VPmax (mbar)", 
"VPact (mbar)", 
"VPdef (mbar)", 
"sh (g/kg)", 
"H20C (mmol/mol)", 
"rho (g/m**3)", 
"wv (m/s)", 
"max. wv (m/s)", 
"wd (deg)"] 
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接 下 来 ,将 420 551 行 数据 转换 成 一 个 Numpy 数组 。 
代码 清单 6-29 解析 数据 


import numpy as np 


float_data = np.zeros((len(lines), len(header) - 1)) 
for i, line in enumerate(lines): 
ValUes. = [floati(x) for % 1n line. split(', ")[1s)] 
float_data[i, :] = values 


比如 ,温度 随时 间 的 变化 如 图 6-18 所 示 ( 单位 : 摄氏 度 )。 在 这 张 图 中 ,你 可 以 清楚 地 看 
到 温度 每 年 的 周期 性 变化 。 





代码 清单 6-30 “绘制 温度 时 间 序列 


from matplotlib import pyplot as plt 


temp = float_data[:，1] # 温度 (单位 : 摄氏 度 ) 
plt.plot (range (len (temp)), temp) 











0 50000 100000150000200000250000300000350000400000450000 
图 6-18 在 数据 集 整个 时 间 范 围 内 的 温度 (单位 : 摄氏 度 ) 


图 6-19 给 出 了 前 10 天 温度 数据 的 图 像 。 因 为 每 10 分 钟 记录 一 个 数据 ， 所 以 每 天 有 144 个 
数据 点 。 


代码 清单 6-31 绘制 前 10 天 的 温度 时 间 序 列 





plt.plot (range (1440), temp[:1440]) 
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图 6-19 数据 集中 前 10 天 的 温度 (单位 : 摄氏度 ) 


在 这 张 图 中 ， 你 可 以 看 到 每 天 的 周期 性 变化 ， 尤 其 是 最 后 4 天 特别 明显 。 另 外 请 注意 ， 

10 天 一 定 是 来 自 于 很 冷 的 冬季 月 份 。 

如 果 你 想 根 据 过 去 几 个 月 的 数据 来 预测 下 个 月 的 平均 温度 ， 那么 问题 很 简单 ， 因 为 数据 具 

有 可 靠 的 年 度 周期 性 。 但 从 几 天 的 数据 来 看 ， 温 度 看 起 来 更 混乱 一 些 。 以 天 作为 观察 尺度 ， 这 

个 时 间 序 列 是 可 以 预测 的 吗 ? 我们 来 寻找 这 个 问题 的 答案 。 

6.3.2 ”准备 数据 

这 个 问题 的 确切 表述 如 下 : 一 个 时 间 步 是 10 分 钟 ， 每 steps 个 时 间 步 采样 一 次 数据 ， 给 

定 过 去 lookback 个 时 间 步 之 内 的 数据 ， 能 否 预 测 aelay 个 时 间 步 之 后 的 温度 ?用 到 的 参数 值 

如 下 。 

口 lookback = 720: 给 定 过 去 5 天 内 的 观测 数据 。 

口 steps = 6: 观测 数据 的 采样 频率 是 每 小 时 一 个 数据 点 。 

Daelay = 144: 目标 是 未 来 24 小 时 之 后 的 数据 。 

开始 之 前 ， 你 需要 完成 以 下 两 件 事 。 

口 将 数据 预 处 理 为 神经 网 络 可 以 处 理 的 格式 。 这 很 简单 。 数 据 已 经 是 数值 型 的 ， 所 以 不 需 
要 做 向 量化 。 但 数据 中 的 每 个 时 间 序 列 位 于 不 同 的 范围 (比如 温度 通道 位 于 -20 到 +30 
之 间 ， 但 气压 大 约 在 1000 毫 巴 上 下 )。 你 需要 对 每 个 时 间 序 列 分 别 做 标准 化 ， 让 它们 在 
相似 的 范围 内 都 取 较 小 的 值 。 

口 编写 一 个 Python 生成 器 ， 以 当前 的 浮 点 数 数组 作为 输入 ， 并 从 最 近 的 数据 中 生成 数据 批 
量 ,， 同 时 生成 未 来 的 目标 温度 。 因 为 数据 集中 的 样本 是 高 度 匈 余 的 (对 于 第 入 个 样本 和 
第 N+1 个 样本 ， 大 部 分 时 间 步 都 是 相同 的 )， 所 以 显 式 地 保存 每 个 样本 是 一 种 浪费 。 相 反 ， 
我 们 将 使 用 原始 数据 即时 生成 样本 。 





[Ce 
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预 处 理 数据 的 方法 是 ， 将 每 个 时 间 序 列 减 去 其 平均 值 ， 然 后 除 以 其 标准 差 。 我 们 将 使 用 前 
200 000 个 时 间 步 作为 训练 数据 ， 所 以 只 对 这 部 分 数据 计算 平均 值 和 标准 差 。 
代码 清单 6-32 ”数据 标准 化 

mean = float_qata[:200000] .mean (axis=0) 

float_data -= mean 

std = float_data[:200000] .std(axis=0) 

float_data /= std 

代码 清单 6-33 给 出 了 将 要 用 到 的 生成 名 。 它 生成 了 一 个 元 组 (samples， targets), 其 
中 samples 是 输入 数据 的 一 个 批量 ，targets 是 对 应 的 目标 温度 数组 。 生 成 器 的 参数 如 下 。 

DO aata: 浮 点 数 数据 组 成 的 原始 数组 ， 在 代码 清单 6-32 中 将 其 标准 化 。 

口 lookback: 输入 数据 应 该 包括 过 去 多 少 个 时 间 步 。 

DO aelay: 目标 应 该 在 未 来 多 少 个 时 间 步 之 后 。 

口 min_index 和 max_index: data 数组 中 的 索引 ， 用 于 界定 需要 抽取 哪些 时 间 步 。 这 有 

助 于 保存 一 部 分 数据 用 于 验证 、 另 一 部 分 用 于 测试 。 

口 shuffle: 是 打 乱 样本 ， 还 是 按 顺 序 抽 取样 本 。 

口 patch_size: 每 个 批量 的 样本 数 。 

口 step :数据 采样 的 周期 (单位 :时 间 步 ) 我 们 将 其 设 为 6, 为 的 是 每 小 时 抽取 一 个 数据 点 。 


代码 清单 6-33 ”生成 时 间 序 列 样本 及 其 目标 的 生成 能 





def generator (data, lookback, delay, min_ index, max_index, 
shuffle=False, batch size=128, step=6): 
if max_index is None: 


max_index = len(data) - delay - 1 
i = min_ index + lookback 
while 1: 

if shuffle: 


rows = np.random.randint( 
min_ index + lookback, max_index, size=batch size) 
else: 
if i + batch_ size >= max_index: 
i = min_ index + lookback 
rows = np.arange(i, min(i + batch size, max_index)) 
i += len (rows) 


samples = np.zeros( (len(rows), 
lookback // step, 
data.shape[-1])) 

targets = np.zeros( (len(rows),)) 

for j, row in enumerate (rows): 


indices = range (rows[j] - lookback, rows[j], step) 
samples[j] = data[lindices] 
targets[j] = datalrows[j] + delay] [1] 


yield samples, targets 


下 面 ， 我 们 使 用 这 个 抽象 的 generator 函数 来 实例 化 三 个 生成 器 : 一 个 用 于 训练 ， 一 个 用 
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于 验证 ， 还 有 一 个 用 于 测试 。 每 个 生成 器 分 别 读 取 原始 数据 的 不 同时 间 段 : 训练 生成 器 读 取 前 
200 000 个 时 间 步 ， 验 证 生成 器 读 取 随 后 的 100 000 个 时 间 步 ， 测 试 生 成 器 读 取 剩 下 的 时 间 步 。 





代码 清单 6-34 “准备 训练 生成 器 、 验 证 生成 器 和 测试 生成 顺 


lookback = 1440 
step = 6 

delay = 144 
batch_ size = 128 


train gen = generator (float_data, 
lookback=lookback, 
delay=delay, 
min_ index=0, 
max_index=200000, 
shuffle=True, 
step=step, 
batch_ size=batch size) 
val_gen = generator (float_data, 
lookback=lookback, 
delay=delay, 
min_index=200001, 
max_index=300000, 
step=step, 
batch_ size=batch_ size) 
test_gen = generator (float_data, 
lookback=lookback, 
delay=delay, 
min index=300001, 
max_index=None, 


step=step, 
batch_ size=batch_ size) 为 了 查看 整个 验证 集 ， 需 要 
从 val_gen 中 抽取 多 少 次 
val_steps = (300000 - 200001 - lookback) //batch size 





test_steps = (len(float data) - 300001 - lookback) //batch_ size 4 
为 了 查看 整个 测试 集 ， 需 要 从 
test_gen 中 抽取 多 少 次 


6.3.3 ”一 种 基于 常识 的 、 非 机 器 学 习 的 基准 方法 


开始 使 用 黑 盒 深 度 学 习 模 型 解决 温度 预测 问题 之 前 ， 我 们 先 尝 试 一 种 基于 常识 的 简单 方法 。 
它 可 以 作为 合理 性 检查 ， 还 可 以 建立 一 个 基准 ， 更 高 级 的 机 器 学 习 模型 需要 打败 这 个 基准 才能 
表现 出 其 有 效 性 。 面 对 一 个 尚 没 有 已 知 解决 方案 的 新 间 题 时 ， 这 种 基于 常识 的 基准 方法 很 有 用 。 
一 个 经 典 的 例子 就 是 不 平衡 的 分 类 任务 ， 其 中 某 些 类 别 比 其 他 类 别 更 常见 。 如 果 数 据 集 中 包含 
90% 的 类 别 A 实例 和 10% 的 类 别 B 实例 ,那么 分 类 任务 的 一 种 基于 常识 的 方法 就 是 对 新 样本 
始终 预测 类 别 “A”。 这 种 分 类 器 的 总 体 精度 为 90%， 因 此 任何 基于 学 习 的 方法 在 精度 高 于 90% 
时 才能 证 明 其 有 效 性 。 有 了 时候 ， 这 样 基本 的 基准 方法 可 能 很 难 打败 。 
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本 例 中 ， 我 们 可 以 放心 地 假设 ， 温 度 时 间 序 列 是 连续 的 〈 明天 的 温度 很 可 能 接近 今天 的 温 
度 )， 并 且 具 有 每 天 的 周期 性 变化 。 因 此 ， 一 种 基于 常识 的 方法 就 是 始终 预测 24 小 时 后 的 温度 
等 于 现在 的 温度 。 我 们 使 用 平均 绝对 误差 (MAE ) 指标 来 评估 这 种 方法 。 


np .mean (npb.abs (preds - targets)) 


下 面 是 评估 的 循环 代码 。 


代码 清单 6-35 ”计算 符合 常识 的 基准 方法 的 MAE 





def evaluate naive method(): 

batch maes = [] 

for step in range(val_steps): 
samples, targets = next (val_gen) 
preds = samples[:, -1, 1] 
mae = np.mean(np.abs (preds - targets)) 
batch_ maes.append (mae) 

print (np.mean (batch_ maes)) 


evaluate_naive_method() 


得 到 的 MAE 为 0.29。 因 为 温度 数据 被 标准 化 成 均值 为 0、 标 准 差 为 1， 所 以 无 法 直接 对 这 
个 值 进行 解释 。 它 转化 成 温度 的 平均 绝对 误差 为 0.29 x temperature_std 摄氏度 ， 即 2.57%C。 


代码 清单 6-36 将 MAE 转换 成 摄氏 温度 误差 





celsius_mae = 0.29 * stdl[1] 


这 个 平均 绝对 误差 还 是 相当 大 的 。 接 下 来 的 任务 是 利用 深度 学 习 知 识 来 改进 结果 。 
6.3.4 一 种 基本 的 机 器 学 习 方法 


在 尝试 机 器 学 习 方法 之 前 ， 建 立 一 个 基于 常识 的 基准 方法 是 很 有 用 的 ; 同样 ， 在 开始 研究 
复杂 上 且 计算 代价 很 高 的 模型 (比如 RNN ) 之 前 ， 尝 试 使 用 简单 且 计 算 代 价 低 的 机 器 学 习 模 型 也 
是 很 有 用 的 ， 比 如 小 型 的 密集 连接 网 络 。 这 可 以 保证 进一步 增加 问题 的 复杂 度 是 合理 的 ， 并 且 
会 带 来 真正 的 好 处 。 

代码 清单 6-37 给 出 了 一 个 密集 连接 模型 , 首先 将 数据 展 平 , 然后 通过 两 个 Dense 层 并 运行 。 
注意 ， 最 后 一 个 Dense 层 没有 使 用 激活 函数 ， 这 对 于 回归 问题 是 很 常见 的 。 我 们 使 用 MAE 作 





为 损失 。 评 佑 数据 和 评估 指标 都 与 常识 方法 完全 相同 ， 所 以 可 以 直接 比较 两 种 方法 的 结果 。 
训练 并 评估 一 个 密集 连接 模型 





from keras.models import Sequential 
from keras import layers 
from keras.optimizers import RMSprop 


model = Sequential () 

model.add(layers.Flatten(input_shape=(lookback // step, float_data.shapel[-1]))) 
model.add (layers.Dense(32, activation='relu')) 

model.add (layers.Dense(1)) 
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model .compile(optimizer=RMSprop(), loss='mae') 

history = model.fit generator (train gen, 
steps_per_epoch=500, 
epochs=20， 
validation data=val_gen, 
validation steps=val_steps) 


我 们 来 显示 验证 和 训练 的 损失 曲线 ( 见 图 6-20 )。 


代码 清单 6-38 ”绘制 结果 


import matplotlib.pyplot as plt 





loss .= history. history['loss.'] 
val_loss = history.history['val_loss'] 


epochs = range(1, len(loss) + 1) 

Blt. fiourEe() 

plt.plot (epochs, loss, 'bo', label='Training loss') 
plt.plot (epochs, val_loss, 'b', label='Validation loss') 
plt.title('Training and validation loss') 


plt.1legend() 


plt.show!() 


Training and validation loss 
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图 6-20 ”简单 的 密集 连接 网 络 在 耶 拿 温度 预测 任务 上 的 训练 损失 和 验证 损失 


部 分 验证 损失 接近 不 包含 学 习 的 基准 方法 ,但 这 个 结果 并 不 可 靠 。 这 也 展示 了 首先 建立 这 
个 基准 方法 的 优点 ,事实 证 明 , 超越 这 个 基准 并 不 容易 。 我 们 的 常识 中 包含 了 大 量 有 价值 的 信息 ， 
而 机 器 学 习 模型 并 不 知道 这 些 信 息 。 

你 可 能 会 问 ， 如 果 从 数据 到 目标 之 间 存 在 一 个 简单 且 表 现 良好 的 模型 ( 即 基于 常识 的 基准 
方法 )， 那 为 什么 我 们 训练 的 模型 没有 找到 这 个 模型 并 进一步 改进 呢 ? 原因 在 于 ， 这 个 简单 的 解 
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决 方案 并 不 是 训练 过 程 所 要 寻找 的 目标 。 我 们 在 模型 空间 ( 即 假设 空间 ) 中 搜索 解决 方案 ， 这 
个 模型 空间 是 具有 我 们 所 定义 的 架构 的 所 有 两 层 网 络 组 成 的 空间 。 这 些 网 络 已 经 相当 复杂 了 。 
如 果 你 在 一 个 复杂 模型 的 空间 中 寻找 解决 方案 ， 那 么 可 能 无 法 学 到 简单 且 性 能 良好 的 基准 方法 ， 
虽然 技术 上 来 说 它 属 于 假设 空间 的 一 部 分 。 通 常 来 说， 这 对 机 器 学 习 是 一 个 非常 重要 的 限制 : 
如 果 学 习 算 法 没有 被 便 编 码 要求 去 寻找 特定 类 型 的 简单 模型 ， 那 么 有 时 候 参数 学 习 是 无 法 找到 
简单 问题 的 简单 解决 方案 的 。 


6.3.5 ”第 一 个 循环 网 络 基准 


第 一 个 全 连接 方法 的 效果 并 不 好 ， 但 这 并 不 意味 着 机 器 学 习 不 适用 于 这 个 问题 。 前 一 个 方 
法 首先 将 时 间 序 列 展 平 ， 这 从 输入 数据 中 删除 了 时 间 的 概念 。 我 们 来 看 一 下 数据 本 来 的 样子 : 
它 是 一 个 序列 ， 其 中 因果 关系 和 顺序 都 很 重要 。 我 们 将 尝试 一 种 循环 序列 处 理 模 型 ， 它 应 该 特 
别 适合 这 种 序列 数据 ， 因 为 它 利 用 了 数据 点 的 时 间 顺 序 ， 这 与 第 一 个 方法 不 同 。 

我 们 将 使 用 Chung 等 人 在 2014 年 开发 的 GRU 层 ”， 而 不 是 上 一 节 介 绍 的 LsTM 层 。 门 控 循 
环 单元 ( GRU，gated recurrent unit ) 层 的 工作 原理 与 LSTM 相同 。 但 它 做 了 一 些 简 化 ， 因 此 运 
行 的 计算 代价 更 低 (虽然 表示 能 力 可 能 不 如 LSTM )。 机 器 学 习 中 到 人 处 可 以 见 到 这 种 计算 代价 与 
表示 能 力 之 间 的 折 中 。 





























代码 清单 6-39 ”训练 并 评估 一 个 基于 GRU 的 模型 
from keras.models import Sequential 
from keras import layers 
from keras.optimizers import RMSprop 





model = Sequential () 
model.add (layers.GRU(32, input_shape=(None, float_ data.shape[-1]))) 
model.add (layers.Dense(1)) 


model.compile(optimizer=RMSprop(), loss='mae') 

history = model.fit generator (train gen, 
steps_per_epoch=500, 
epochs=20, 
validation data=val_gen, 
validation _ steps=val_steps) 


图 6-21 显示 了 模型 结果 。 效 果 好 多 了 1! 远 优 于 基于 常识 的 基准 方法 。 这 证 明了 机 天 学 习 的 
价值 ， 也 证 明了 循环 网 络 与 序列 展 平 的 密集 网 络 相 比 在 这 种 任务 上 的 优势 。 








Q@ CHUNG J, GULCEHRE C, CHO K, et al. Empirical evaluation of gated recurrent neural networks on sequence modeling. 
[Cl/Conference on Neural Information Processing Systems, 2014. 
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6-21 使 用 GRU 在 耶 拿 温度 预测 任务 上 的 训练 损失 和 验证 损失 


新 的 验证 MAE 约 为 0.265 ( 在 开始 显著 过 拟 合 之 前 )， 反 标准 化 转换 成 温度 的 平均 绝对 误 
差 为 2.35% 。 与 最 初 的 误差 2.57% 相 比 ， 这 个 结果 确实 有 所 提高 ， 但 可 能 仍 有 改进 的 空间 。 


6.3.6 ”使 用 循环 dropout 来 降低 过 拟 合 


从 训练 和 验证 曲线 中 可 以 明显 看 出 ， 模 型 出 现 过 拟 合 : 几 轮 过 后 ， 训 练 损失 和 验证 损失 就 
开始 显著 偏离 。 我 们 已 经 学 过 降低 过 拟 合 的 一 种 经 典 技术 一 一 dropout， 即 将 某 一 层 的 输入 单 
元 随机 设 为 0， 其 目的 是 打破 该 层 训 练 数据 中 的 偶然 相关 性 。 但 在 循环 网 络 中 如 何 正确 地 使 用 
dropout， 这 并 不 是 一 个 简单 的 问题 。 人 们 早 就 知道 ， 在 循环 层 前 面 应 用 dropout， 这 种 正则 化 会 
妨碍 学 习 过 程 , 而 不 是 有 所 帮助 。2015 年 , 在 关于 贝 叶 斯 深度 学 习 的 博士 论文 中 小 ,Yarin Gal 确 
定 了 在 循环 网 络 中 使 用 dropout 的 正确 方法 :对 每 个 时 间 步 应 该 使 用 相同 的 dropout 掩 码 (dropout 
mask， 相 同 模式 的 舍弃 单元 )， 而 不 是 让 dropout 掩 码 随 着 时 间 步 的 增加 而 随机 变化 。 此 外 ， 为 
了 对 GRU、LSTM 等 循环 层 得 到 的 表示 做 正则 化 ， 应 该 将 不 随时 间 变 化 的 dropout 掩 码 应 用 于 层 
的 内 部 循环 激活 叫 作 循环 dropout 掩 码 )。 对 每 个 时 间 步 使 用 相同 的 dropout 掩 码 ， 可 以 让 网 络 
沿 着 时 间 正 确 地 传播 其 学 习 误 差 ， 而 随时 间 随 机 变化 的 dropout 扼 码 则 会 破坏 这 个 误差 信号 ， 并 
且 不 利于 学 习 过 程 。 

Yarin Gal 使 用 Keras 开展 这 项 研究 ， 并 帮助 将 这 种 机 制 直接 内 置 到 Keras 循环 层 中 。Keras 
的 每 个 循环 层 都 有 两 个 与 dropout 相关 的 参数 : 一 个 是 aropout ， 它 是 一 个 浮 点 数 ， 指 定 该 层 
输入 单元 的 dropout 比率 ; 另 一 个 是 recurrent_dropout， 指 定 循环 单元 的 dropout 比率 。 我 
们 向 GRU 层 中 添加 dropout 和 循环 dropout， 看 一 下 这 么 做 对 过 拟 合 的 影响 。 因 为 使 用 dropout 
正则 化 的 网 络 总 是 需要 更 长 的 时 间 才 能 完全 收 敛 ， 所 以 网 络 训练 轮 次 增加 为 原来 的 2 倍 。 




































































GD 参见 Yarin Gal 的 博士 论文 “Uncertainty in deep learning”。 
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代码 清单 6-40 ”训练 并 评估 一 个 使 用 dropout 正则 化 的 基于 GRU 的 模型 


from keras.models import Sequential 
from keras import layers 
from keras.optimizers import RMSprop 


model = Sequential () 
model .add (layers .GRU (32, 

dropouts0: 2 

recurrent_dropout=0.2, 

input_shape= (None, float_data.shape[-1]))) 
model.add (layers.Dense(1)) 


model.compile(optimizer=RMSprop(), loss='mae') 

history = model.fit generator (train gen, 
steps_per_epoch=500, 
epochs=40， 
validation data=val_gen, 
validation steps=val_steps) 


结果 如 图 6-22 所 示 。 成 功 ! 前 30 个 轮 次 不 再 过 拟 合 。 不 过 ， 虽 然 评估 分 数 更 加 稳定 ,但 
最 佳 分 数 并 没有 比 之 前 低 很 多 。 


Training and validation loss 
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图 6-22 使 用 dropout 正则 化 的 GRU 在 耶 拿 温度 预测 任务 上 的 训练 损失 和 验证 损失 


6.3.7 ”循环 层 堆 又 


模型 不 再 过 拟 合 ， 但 似乎 遇 到 了 性 能 瓶颈 ， 所 以 我 们 应 该 考虑 增加 网 络 容量 。 回 想 一 下 机 
顺 学 习 的 通用 工作 流程 : 增加 网 络 容量 通常 是 一 个 好 主意 ， 直 到 过 拟 合 变 成 主要 的 障 但 ( 假设 
你 已 经 采取 基本 步 又 来 降低 过 拟 合 ， 比 如 使 用 dropout )。 只 要 过 拟 合 不 是 太 严 重 ， 那 么 很 可 能 
是 容量 不 足 的 问题 。 

增加 网 络 容 量 的 通常 做 法 是 增加 每 层 单元 数 或 增加 层 数 。 循 环 层 堆 (recurrent layer 
stacking ) 是 构建 更 加 强大 的 循环 网 络 的 经 典 方法 ， 例 如 ， 目 前 谷歌 翻译 算法 就 是 7 个 大 型 
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LSTM 层 的 堆 县 一 一 这 个 架构 很 大 。 
在 Keras 中 逐个 堆 释 循环 层 ， 所 有 中 间 层 都 应 该 返回 完整 的 输出 序列 (一 个 3D 张 量 )， 而 
不 是 只 返回 最 后 一 个 时 间 步 的 输出 。 这 可 以 通过 指定 return_sequences=True 来 实现 。 








代码 清单 6-41 训练 并 评估 一 个 使 用 dropout 正则 化 的 堆 共 GRU 模型 
from keras.models import Sequential 


from keras import layers 
from keras.optimizers import RMSprop 





model = Sequential () 
model .add (layers .GRU (32, 
dropouts=0 1, 
recurrent_dropout=0.5, 
return_sequences=True, 
input_shape= (None, float_data.shape[-1]))) 
model.add (layers.GRU(64, activation='relu', 
dropout=0 .1, 
recurrent_dropout=0.5)) 
model.add (layers.Dense(1)) 


model .compile (optimizer=RMSprop(), loss='mae') 

history = model.fit_ generator (train gen, 
steps_per_epoch=500, 
epochs=40， 
validation data=val_gen, 
validation steps=val_steps) 


结果 如 图 6-23 所 示 。 可 以 看 到 ， 添 加 一 层 的 确 对 结果 有 所 改进 ， 但 并 不 显著 。 我 们 可 以 得 
出 两 个 结论 。 
口 因为 过 拟 合 仍然 不 是 很 严重 ， 所 以 可 以 放心 地 增 大 每 层 的 大 小 ， 以 进一步 改进 验证 损失 。 


但 这 么 做 的 计算 成 本 很 高 。 | 


口 添加 一 层 后 模型 并 没有 显著 改进 ， 所 以 你 可 能 发 现 ， 提 高 网 络 能 力 的 回报 在 逐渐 减 小 。 
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图 6-23 ” 堆 释 GRU 网 络 在 耶 拿 温度 预测 任务 上 的 训练 损失 和 验证 损失 
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6.3.8 使 用 双向 RNN 


本 节 介 绍 的 最 后 一 种 方法 叫 作 双向 RNN (bidirectional RNN )。 双 向 RNN 是 一 种 常见 的 
RNN 变 体 ， 它 在 某 些 任务 上 的 性 能 比 普 通 RNN 更 好 。 它 常用 于 自然 语言 处 理 ， 可 谓 深 度 学 习 
对 自然 语言 处 理 的 瑞士 军刀 。 

RNN 特别 依赖 于 顺序 或 时 间 ，RNN 按 顺序 处 理 输入 序列 的 时 间 步 ， 而 打 乱 时 间 步 或 反 转 
时 间 步 会 完全 改变 RNN 从 序列 中 提取 的 表示 。 正 是 由 于 这 个 原因 ， 如 果 顺 序 对 问题 很 重要 ( 比 
如 温度 预测 问题 )，RNN 的 表现 会 很 好 。 双 向 RNN 利用 了 RNN 的 顺序 敏感 性 : 它 包含 两 个 普 
通 RNN， 比 如 你 已 经 学 过 的 GRU 层 和 LSTM 层 ， 每 个 RN 分 别 沿 一 个 方向 对 输入 序列 进行 处 理 
时 间 正 序 和 时 间 逆 序 )， 然 后 将 它们 的 表示 合并 在 一 起 。 通 过 沿 这 两 个 方向 处 理 序列 ， 双 向 
RNN 能 够 捕捉 到 可 能 被 单 向 RNN 忽略 的 模式 。 

值得 注意 的 是 ， 本 节 的 RNN 层 都 是 按时 间 正 序 处 理 序列 ( 更 早 的 时 间 步 在 前 )， 这 可 能 是 
一 个 随意 的 决定 。 至 少 ， 至 今 我 们 还 没有 尝试 质疑 这 个 决定 。 如 果 RNN 按时 间 道 序 处 理 输入 序 
列 (更 晚 的 时 间 步 在 前 )， 能 否 表 现 得 足够 好 呢 ? 我们 在 实践 中 尝试 一 下 这 种 方法 ， 看 一 下 会 发 
生 什 么 。 你 只 需要 编写 一 个 数据 生成 器 的 变 体 ， 将 输入 序列 沿 着 时 间 维 度 反 转 ( 即将 最 后 一 行 
代码 替换 为 yield samples[:，::-1，:]，targets)。 本 节 第 一 个 实验 用 到 了 一 个 单 GRU 
层 的 网 络 ， 我 们 训练 一 个 与 之 相同 的 网 络 ， 得 到 的 结果 如 图 6-24 所 示 。 
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图 6-24 ”对 于 耶 拿 温度 预测 任务 ，GRU 在 逆序 序列 上 训练 得 到 的 训练 损失 和 验证 损失 


逆序 GRU 的 效果 甚至 比 基 于 常识 的 基准 方法 还 要 差 很 多 ， 这 说 明 在 本 例 中 ， 按 时 间 正 序 处 
理 对 成 功 解决 问题 很 重要 。 这 非常 合理 : GRU 层 通常 更 善于 记 住 最 近 的 数据 , 而 不 是 久远 的 数据 ， 
与 更 早 的 数据 点 相 比 ， 更 靠 后 的 天 气 数据 点 对 问题 自然 具有 更 高 的 预测 能 力 ( 这 也 是 基于 常识 
的 基准 方法 非常 强大 的 原因 )。 因 此 , 按时 间 正 序 的 模型 必然 会 优 于 时 间 逆 序 的 模型 。 重 要 的 是 ， 
对 许多 其 他 问题 ( 包括 自然 语言 ) 而 言 ， 情 况 并 不 是 这 样 : 直觉 上 来 看 ， 一 个 单词 对 理解 句子 
的 重要 性 通常 并 不 取决 于 它 在 句子 中 的 位 置 。 我 们 尝试 对 6.2 节 IMDB 示例 中 的 LSTM 应 用 相 
同 的 技巧 。 
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代码 清单 6-42 ”使 用 逆序 序列 训练 并 评估 一 个 LSTM 
from keras.datasets import imdb 
from keras.preprocessing import sequence 
from keras import layers 
from keras.models import Sequential 


在 这 么 多 单词 之 后 截断 文本 这 些 单词 都 


max_features = 10000 < 一 作为 特征 的 单词 个 数 属于 前 max_features 个 最 常见 的 单词 ) 


maxlen = 500 4 








(x_train, y_train), (x test, y_test) = imdb.load datal 
num_words=max_features) < 加 载 数 据 


XxX train = [x[::=1] for x in x train 
x test = [x[::-1] for x in x test] 


: | 将 序列 反 转 


x_ train = sequence.pad sequences (x_ train, maxlen=maxlen) 
x_ test = sequence.pad_ sequences (x test, maxlen=maxlen) 


填充 序列 


model = Sequential () 

model.add (layers.Embedding (max_features, 128)) 
model .add (layers .LSTM (32)) 
model.add(layers.Dense(1, activation='sigmoid')) 


model.compile(optimizer='rmsprop', 
loss='binary_crossentropy', 
metrics=['acc']) 


history = model.fit(x train, y_train, 
epochs=10, 
batch_ size=128, 
validation split=0.2) 


模型 性 能 与 正 序 STM 几乎 相同 。 值 得 注意 的 是 ， 在 这 样 一 个 文本 数据 集 上 ， 逆 序 处 理 的 
效果 与 正 序 处 理 一 样 好 ， 这 证 实 了 一 个 假设 : 虽然 单词 顺序 对 理解 语言 很 重要 ， 但 使 用 哪 种 顺 
序 并 不 重要 。 重 要 的 是 ,在 逆序 序列 上 训练 的 RNN 学 到 的 表示 不 同 于 在 原始 序列 上 学 到 的 表示 ， 
正如 在 现实 世界 中 ， 如 果 时 间 倒 流 (你 的 人 生 是 第 一 天 死去 、 最 后 一 天 出 生 )， 那 么 你 的 心智 模 
型 也 会 完全 不 同 。 在 机 器 学 习 中 ， 如 果 一 种 数据 表示 不 同 但 有 用 ， 那 么 总 是 值得 加 以 利用 ， 这 
种 表示 与 其 他 表示 的 差异 越 大 越 好 ， 它 们 提供 了 查看 数据 的 全 新 角度 ， 抓 住 了 数据 中 被 其 他 方 
法 忽略 的 内 容 ， 因 此 可 以 提高 模型 在 某 个 任务 上 的 性 能 。 这 是 集成 (ensembling ) 方法 背后 的 直 
觉 ， 我 们 将 在 第 7 章 介绍 集成 的 概念 。 

双向 RNN 正 是 利用 这 个 想法 来 提高 正 序 RNN 的 性 能 。 它 从 两 个 方向 查看 数据 ( 见 图 6-25 )， 
从 而 得 到 更 加 丰富 的 表示 ， 并 捕捉 到 仅 使 用 正 序 RNN 时 可 能 忽略 的 一 些 模式 。 
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正 序 序列 逆序 序列 
图 6-25 双向 RNN 层 的 工作 原理 
在 Keras 中 将 一 个 双向 RNN 实例 化 ， 我 们 需要 使 用 Bidirectional 层 ， 它 的 第 一 个 参数 
是 一 个 循环 层 实 例 。Bidirectional 对 这 个 循环 层 创建 了 第 二 个 单独 实例 ， 然 后 使 用 一 个 实例 
按 正 序 处 理 输入 序列 ， 另 一 个 实例 按 逆序 处 理 输入 序列 。 我 们 在 IMDB 情感 分 析 任 务 上 来 试 一 
下 这 种 方法 。 





代码 清单 6-43 ”训练 并 评估 一 个 双向 LSTM 


model = Sequential () 

model.add (layers.Embedding (max_features, 32)) 
model.add (layers.Bidirectional (layers.LSTM(32))) 
model.add (layers.Dense(1, activation='sigmoid')) 


model.compile(optimizer='rmsprop', loss='binary_crossentropy', metrics=['acc']) 

history = model.fit (x train, y_train, 

epochs=10, 
batch_ size=128, 
validation split=0.2) 

这 个 模型 的 表现 比 上 一 节 的 普通 LsTM 略 好 ， 验 证 精度 超过 89%。 这 个 模型 似乎 也 很 快 就 
开始 过 拟 合 ， 这 并 不 令 人 惊讶 ， 因 为 双向 层 的 参数 个 数 是 正 序 STM 的 2 倍 。 添 加 一 些 正 则 化 ， 
双向 方法 在 这 个 任务 上 可 能 会 有 很 好 的 表现 。 

接 下 来 ， 我 们 尝试 将 相同 的 方法 应 用 于 温度 预测 任务 。 


代码 清单 6-44 ”训练 一 个 双向 GRU 





from keras.models import Sequential 
from keras import layers 
from keras.optimizers import RMSprop 


model = Sequential () 
model.add (layers.Bidirectionall( 

layers.GRU(32), input_shape= (None, float_data.shape[-1]))) 
model.add (layers.Dense(1)) 


model.compile(optimizer=RMSprop(), loss='mae') 
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history = modqel1.fit_generator (train_ gen, 
steps_per_epoch=500, 
epochs=40, 
validation data=val_gen, 
validation steps=val_steps) 


这 个 模型 的 表现 与 普通 GRU 层 差不多 一 样 好 。 其 原因 很 容易 理解 : 所 有 的 预测 能 力 肯定 都 
来 自 于 正 序 的 那 一 半 网 络 ， 因 为 我 们 已 经 知道 ,逆序 的 那 一 半 在 这 个 任务 上 的 表现 非常 粳 糕 〈 本 
例 同 样 是 因为 ， 最 近 的 数据 比 和 久远 的 数据 更 加 重要 )。 


6.3.9 更 多 尝试 


为 了 提高 温度 预测 问题 的 性 能 ， 你 还 可 以 尝试 下 面 这 些 方法 。 
口 在 堆 释 循环 层 中 调节 每 层 的 单元 个 数 。 当 前 取 值 在 很 大 程度 上 是 任意 选择 的 ， 因 此 可 能 
不 是 最 优 的 。 
口 调节 RMSprop 优化 器 的 学 习 率 。 
口 尝试 使 用 LsTM 层 代替 GRU 层 。 
口 在 循环 层 上 面 尝试 使 用 更 大 的 密集 连接 回归 器 ， 即 更 大 的 Dense 层 或 Dense 层 的 堆 竺 。 
口 不 要 忘记 最 后 在 测试 集 上 运行 性 能 最 佳 的 模型 ( 即 验证 MAE 最 小 的 模型 )。 和 否则 ， 你 开 
发 的 网 络 架 构 将 会 对 验证 集 过 拟 合 。 

正如 前 面 所 说 ， 深 度 学 习 是 一 门 艺术 而 不 是 科学 。 我 们 可 以 提供 指导 ， 对 于 给 定 问 题 哪些 
方法 可 能 有 用 、 哪 些 方法 可 能 没 用 ， 但 归根 结 底 ， 每 个 问题 都 是 独一无二 的 ， 你 必须 根据 经 验 
对 不 同 的 策略 进行 评估 。 目 前 没有 任何 理论 能 够 提前 准确 地 告诉 你 ， 应 该 怎么 做 才能 最 优 地 解 
决 问题 。 你 必须 不 断 迭 代 。 













































































6.3.10 “小结 


下 面 是 你 应 该 从 本 市 中 学 到 的 要 点 。 

口 我 们 在 第 4 章 学 过 ， 遇 到 新 间 题 时 ， 最 好 首先 为 你 选择 的 指标 建立 一 个 基于 常识 的 基准 。 
如 果 没 有 需要 打败 的 基准 ， 那 么 就 无 法 分 辨 是 否 取得 了 真正 的 进步 。 

口 在 尝试 计算 代价 较 高 的 模型 之 前 ， 先 尝试 一 些 简 单 的 模型 ， 以 此 证 明 增 加 计算 代价 是 有 
意义 的 。 有 时 简单 模型 就 是 你 的 最 佳 选 择 。 

如 果 时 间 顺 序 对 数据 很 重要 ， 那 么 循环 网 络 是 一 种 很 适合 的 方法 ， 与 那些 先 将 时 间 数 据 
展 平 的 模型 相 比 ， 其 性 能 要 更 好 。 

口 想 要 在 循环 网 络 中 使 用 dropout， 你 应 该 使 用 一 个 不 随时 间 变 化 的 dropout 掩 码 与 循环 
dropout 掩 码 。 这 二 者 都 内 置 于 Keras 的 循环 层 中 ， 所 以 你 只 需要 使 用 循环 层 的 dropout 
和 recurrent_dqropout 参数 即 可 。 

与 单个 RNN 层 相 比 ， 堆 芭 RNN 的 表示 能 力 更 加 强大 。 但 它 的 计算 代价 也 更 高 ， 因 此 不 
一 定 总 是 需要 。 虽 然 它 在 机 器 翻译 等 复杂 问题 上 很 有 效 ， 但 在 较 小 、 较 简单 的 问题 上 可 
能 不 一 定 有 用 。 











口 





口 
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口 双向 RNN 从 两 个 方向 查看 一 个 序列 ， 它 对 自然 语言 处 理 问 题 非 常 有 用 。 但 如 果 在 序列 
数据 中 最 近 的 数据 比 序列 开头 包含 更 多 的 信息 ,那么 这 种 方法 的 效果 就 不 明显 。 


注意 有 两 个 重要 的 概念 我 们 这 里 没有 详细 介绍 : 循环 注意 (recurrent attention ) 和 序列 掩 码 
( sequence masking )。 这 两 个 概念 通常 对 自然 语言 处 理 特别 有 用 ， 但 并 不 适用 于 温度 预测 
问题 。 你 可 以 在 学 完 本 书后 对 其 做 进一步 研究 。 


市 场 与 机 器 学 习 

有 些 读者 肯定 想 要 采用 我 们 这 里 介绍 的 方法 ， 并 尝试 将 其 应 用 于 预测 股票 市 场 上 证 券 
的 未 来 价格 (或 货币 汇率 等 )。 市 场 的 统计 特征 与 天 气 模式 等 自然 现象 有 很 大 差别 。 如 果 你 
只 能 访问 公开 可 用 的 数据 ， 那 么 想 要 用 机 器 学 习 来 打败 市 场 是 一 项 非常 困难 的 任务 ， 你 很 可 
能 会 白白 浪费 时 间 和 资源 ， 却 什么 也 得 不 到 。 

永远 要 记 住 ， 面 对 市 场 时 ， 过 去 的 表现 并 不 能 很 好 地 预测 未 来 的 收益 ， 正 如 靠 观 察 后 
视 镜 是 没 办 法 开车 的 。 与 此 相对 的 是 ， 如 果 在 数据 集中 过 去 能 够 很 好 地 预测 未 来 ， 那 么 机 器 
学 习 非 常 适合 用 于 这 种 数据 集 。 


6.4 用 卷 积 神经 网 络 处 理 序列 


第 5 章 我 们 学 习 了 卷 积 神经 网 络 (convnet )， 并 知道 它 在 计算 机 视觉 问题 上 表现 出 色 ， 原 因 
在 于 它 能 够 进行 卷 积 运算 ， 从 局 部 输入 图 块 中 提取 特征 ， 并 能 够 将 表示 模块 化 ， 同 时 可 以 高 效 
地 利用 数据 。 这 些 性 质 让 卷 积 神经 网 络 在 计算 机 视觉 领域 表现 优异 ， 同 样 也 让 它 对 序列 处 理 特 
别 有 效 。 时 间 可 以 被 看 作 一 个 空间 维度 ， 就 像 二 维 图 像 的 高 度 或 宽度 。 

对 于 某 些 序列 处 理 问题 ， 这 种 一 维 卷 积 神经 网 络 的 效果 可 以 媲美 RNN， 而 且 计算 代价 通常 
要 小 很 多 。 最 近 ， 一 维 卷 积 神经 网 络 | 通常 与 空洞 卷 积 核 (dilated kernel ) 一 起 使 用 ] 已 经 在 音 
频 生 成 和 机 器 翻译 领域 取得 了 巨大 成 功 。 除 了 这 些 具体 的 成 就 ， 人 们 还 早已 知道 ， 对 于 文本 分 
类 和 时 间 序 列 预测 等 简单 任务 ， 小 型 的 一 维 卷 积 神经 网 络 可 以 替代 RNN， 而 且 速 度 更 快 。 


6.4.1 理解 序列 数据 的 一 维 卷 积 


前 面 介绍 的 卷 积 层 都 是 二 维 卷 积 ， 从 图 像 张 量 中 提取 二 维 图 块 并 对 每 个 图 块 应 用 相同 的 变 
换 。 按 照 同样 的 方法 ， 你 也 可 以 使 用 一 维 卷 积 ， 从 序列 中 提取 局 部 一 维 序列 段 ( 即 子 序列 )， 见 
图 6-26。 

这 种 一 维 卷 积 层 可 以 识别 序列 中 的 局 部 模式 。 因 为 对 每 个 序列 段 执 行 相同 的 输入 变换 ， 所 
以 在 句子 中 某 个 位 置 学 到 的 模式 稍 后 可 以 在 其 他 位 置 被 识别 ， 这 使 得 一 维 卷 积 神经 网 络 具 有 平 
移 不 变性 ( 对 于 时 间 平 移 而 言 )。 举 个 例子 ， 使 用 大 小 为 5 的 卷 积 窗口 处 理 字 符 序列 的 一 维 卷 积 
神经 网 络 ， 应 该 能 够 学 习 长 度 不 大 于 5 的 单词 或 单词 片段 ， 并 且 应 该 能 够 在 输入 句子 中 的 任何 
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位 置 识别 这 些 单词 或 单词 段 。 因 此 ， 字 符 级 的 一 维 卷 积 神经 网 络 能 够 学 会 单词 构词法 。 
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图 6-26 一 维 卷 积 神经 网 络 的 工作 原理 : 每 个 输出 时 间 步 都 是 利用 输入 序列 
在 时 间 维度 上 的 一 小 段 得 到 的 


6.4.2 ”序列 数据 的 一 维 池 化 

你 已 经 学 过 二 维 池 化 运算 ， 比 如 二 维 平 均 池 化 和 二 维 最 大 池 化 ， 在 卷 积 神经 网 络 中 用 于 对 
图 像 张 量 进行 空间 下 采样 。 一 维 也 可 以 做 相同 的 池 化 运算 :从 输入 中 提取 一 维 序列 段 ( 即 子 序列 )， 
然后 输出 其 最 大 值 ( 最 大 池 化 ) 或 平均 值 (平均 池 化 ) 与 二 维 卷 积 神经 网 络 一 样 ， 该 运算 也 是 
用 于 降低 一 维 输入 的 长 度 ( 子 采样 )。 


6.4.3 ”实现 一 维 卷 积 神经 网 络 


Keras 中 的 一 维 卷 积 神经 网 络 是 Conv1D 层 ， 其 接口 类 似 于 conv2D。 它 接收 的 输入 是 形状 
为 (samples，time， features) 的 三 维 张 量 ， 并 返回 类 似 形状 的 三 维 张 量 。 卷 积 窗 口 是 时 
间 轴 上 的 一 维 窗口 (时 间 轴 是 输入 张 量 的 第 二 个 轴 )。 

我 们 来 构建 一 个 简单 的 两 层 一 维 卷 积 神 经 网 络 ， 并 将 其 应 用 于 我 们 熟悉 的 IMDB 情感 分 类 
任务 。 提 醒 一 下 ， 获 取 数 据 并 预 处 理 的 代码 如 下 所 示 。 


代码 清单 6-45 ”准备 IMDB 数据 
from keras.datasets import imdb 
from keras.preprocessing import sequence 








max_features = 10000 
max_len = 500 
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print('Loading data...') 


(x_train, y_train), (x test, y_test) = imdb.load data (num words=max_features) 
print (len(x train), 'train sequences') 
print (len(x_ test), 'test sequences') 


print('Pad sequences (samples x time)') 

x_train = sequence.pad sequences (x train, maxlen=max_len) 
x _ test = sequence.pad_ sequences (x _ test, maxlen=max_len) 
print ('x train shape:', x_ train.shape) 

print('x test shape:', x_ test.shape) 


一 维 卷 积 神经 网 络 的 架构 与 第 5 章 的 二 维 卷 积 神经 网 络 相同 ， 它 是 Conv1D 层 和 MaxPooling1D 
层 的 堆 生 ,最 后 是 一 个 全 局 池 化 层 或 Flatten 层 , 将 三 维 输出 转换 为 二 维 输出 ， 让 你 可 以 向 模 
型 中 添加 一 个 或 多 个 Dense 层 ， 用 于 分 类 或 回归 。 

不 过 二 者 有 一 点 不 同 : 一 维 卷 积 神经 网 络 可 以 使 用 更 大 的 卷 积 窗口 。 对 于 二 维 卷 积 层 ， 
3 x3 的 卷 积 窗口 包含 3 x 3=9 个 特征 向 量 ; 但 对 于 一 位 卷 积 层 ， 大 小 为 3 的 卷 积 窗口 只 包含 3 
个 卷 积 向 量 。 因 此 ， 你 可 以 轻松 使 用 大 小 等 于 7 或 9 的 一 维 卷 积 窗口 。 

用 于 IMDB 数据 集 的 一 维 卷 积 神经 网 络 示 例如 下 所 示 。 








代码 清单 6-46 ”在 IMDB 数据 上 训练 并 评 佑 一 个 简单 的 一 维 卷 积 神经 网 络 





from keras.models import Sequential 
from keras import layers 
from keras.optimizers import RMSprop 


model = Sequential () 

model.add (layers.Embedding (max_features, 128, input_length=max_len)) 
model.add (layers.Conv1lD(32, 7, activation='relu')) 
model.add (layers .MaxPoolinglD(5)) 

model.add (layers.Conv1lD(32, 7, activation='relu')) 

model.add (layers.GlobalMaxPoolingl1D()) 

model.add (layers.Dense(1)) 


model .summary () 





model .compile (optimizer=RMSprop (lr=1le-4), 
loss='binary_crossentropy', 
metrics=['acc']) 
history = model.fit (x train, y_train, 
epochs=10, 
batch_ size=128, 
validation_ split=0.2) 


图 6-27 和 图 6-28 给 出 了 模型 的 训练 结果 和 验证 结果 。 验 证 精度 略 低 于 LsTM， 但 在 CPU 和 
GPU 上 的 运行 速度 都 要 更 快 ( 速度 提高 多 少 取决 于 具体 配置 ， 会 有 很 大 差异 )。 现 在 ， 你 可 以 
使 用 正确 的 轮 数 (4 轮 ) 重新 训练 这 个 模型 ， 然 后 在 测试 集 上 运行 。 这 个 结果 可 以 让 我 们 确信 ， 
在 单词 级 的 情感 分 类 任务 上 ， 一 维 卷 积 神经 网 络 可 以 替代 循环 网 络 ， 并 且 速 度 更 快 、 计 算 代 价 
更 低 。 
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Training and validation loss 
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6-27 ”简单 的 一 维 卷 积 神经 网 络 存 IMDB 数据 上 的 训练 损失 和 验证 损失 


Training and validation accuracy 
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6-28 简单 的 一 维 卷 积 神经 网 络 在 IMDB 数据 上 的 训练 精度 和 验证 精度 


6.4.4 结合 CNN 和 RNN 来 处 理 长 序列 


一 维 卷 积 神经 网 络 分 别处 理 每 个 输入 序列 段 ， 所 以 它 对 时 间 步 的 顺序 不 敏感 (这 里 所 说 顺 
序 的 范围 要 大 于 局 部 尺度 ， 即 大 于 卷 积 窗口 的 大 小 )， 这 一 点 与 RNN 不 同 。 当 然 ， 为 了 识别 更 
长 期 的 模式 ， 你 可 以 将 许多 卷 积 层 和 池 化 层 堆 受 在 一 起 ， 这 样 上 面 的 层 能 够 观察 到 原始 输入 中 
更 长 的 序列 段 ， 但 这 仍然 不 是 一 种 引入 顺序 敏感 性 的 好 方法 。 想 要 证 明 这 种 方法 的 不 足 ， 一 种 
方法 是 在 温度 预测 问题 上 使 用 一 维 卷 积 神经 网 络 ， 在 这 个 问题 中 顺序 敏感 性 对 良好 的 预测 结果 
非常 关键 。 以 下 示例 复 用 了 前 面 定 义 的 这 些 变量 : float_gdata、train_gen、val_gen 和 


val_stepso 
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代码 清单 6-47 ”在 耶 拿 数据 上 训练 并 评估 一 个 简单 的 一 维 卷 积 神经 网 络 
from keras.models import Sequential 


from keras import layers 
from keras.optimizers import RMSprop 








model = Sequential () 
model.add (layers.Conv1lD(32, 5, activation='relu', 
input_shape= (None, float_data.shape[-1]))) 
model.add (layers .MaxPooling1lD(3)) 
model.add (layers.Conv1lD(32, 5, activation='relu')) 
model.add (layers .MaxPooling1lD(3)) 
model.add (layers.Conv1lD(32, 5, activation='relu')) 
model.add (layers.GlobalMaxPoolingl1D()) 
model.add (layers.Dense(1)) 
model .compile (optimizer=RMSprop(), loss='mae') 





history = model.fit generator (train gen, 
steps_per_epoch=500, 
epochs=20， 
validation data=val_gen, 
validation steps=val_steps) 


图 6-29 给 出 了 训练 和 验证 的 MAE。 
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图 6-29 简单 的 一 维 卷 积 神经 网 络 在 耶 拿 温度 预测 任务 上 的 训练 损失 和 验证 损失 


验证 MAE 停留 在 0.4~0.5 ,使 用 小 型 卷 积 神经 网 络 甚至 无 法 击败 基于 常识 的 基准 方法 。 同样 ， 
这 是 因为 卷 积 神经 网 络 在 输入 时 间 序 列 的 所 有 位 置 寻找 模式 ， 它 并 不 知道 所 看 到 某 个 模式 的 时 
间 位 置 ( 距 开始 多 长 时 间 ， 距 结束 多 长 时 间 等 )。 对 于 这 个 具体 的 预测 问题 ， 对 最 新 数据 点 的 解 
释 与 对 较 早 数据 点 的 解释 应 该 并 不 相同 ， 所 以 卷 积 神经 网 络 无 法 得 到 有 意义 的 结果 。 卷 积 神经 
网 络 的 这 种 限制 对 于 IMDB 数据 来 说 并 不 是 问题 ， 因 为 对 于 与 正面 情绪 或 负面 情绪 相关 联 的 关 
键 词 模式 ， 无 论 出 现在 输入 句子 中 的 什么 位 置 ， 它 所 包含 的 信息 量 是 一 样 的 。 











6.4 用 卷 积 神经 网 络 处 理 序列 193 








要 想 结合 卷 积 神经 网 络 的 速度 和 轻 量 与 RNN 的 顺序 敏感 性 ， 一 种 方法 是 在 RNN 前 面 使 用 
一 维 卷 积 神经 网 络 作为 预 处 理 步 又 ( 见 图 6-30 )。 对 于 那些 非常 长 ,以 至 于 RNN 无 法 处 理 的 序列 
(比如 包含 上 千 个 时 间 步 的 序列 )， 这 种 方法 尤其 有 用 。 卷 积 神经 网 络 可 以 将 长 的 输入 序列 转换 为 
高 级 特征 组 成 的 更 短 序列 (下 采样 )。 然后 ,提取 的 特征 组 成 的 这 些 序列 成 为 网 络 中 RNN 的 输入 。 


jl 


更 短 的 序列 | CNN 特 征 


er 








长 序列 








图 6-30 ”结合 一 维 CNN 和 RNN 来 处 理 长 序列 


这 种 方法 在 研究 论文 和 实际 应 用 中 并 不 多 见 ， 可 能 是 因为 很 多 人 并 不 知道 。 这 种 方法 非常 
有 效 ， 应 该 被 更 多 人 使 用 。 我 们 尝试 将 其 应 用 于 温度 预测 数据 集 。 因 为 这 种 方法 允许 操作 更 长 
的 序列 ， 所 以 我 们 可 以 查看 更 早 的 数据 ( 通过 增 大 数据 生成 器 的 1ookback 参数 ) 或 查看 分 辨 
率 更 高 的 时 间 序 列 〈 通 过 减 小 生成 器 的 step 参数 )。 这 里 我 们 任意 地 将 step 减 半 ， 得 到 时 间 
序列 的 长 度 变 为 之 前 的 两 倍 ， 温 度数 据 的 采样 频率 变 为 每 30 分 钟 一 个 数据 点 。 本 示例 复 用 了 之 
前 定义 的 generator 网 数 。 


代码 清单 6-48 “为 耶 拿 数据 集 准 备 更 高 分 辨 率 的 数据 生成 需 








Se 夺 -3” 码 


Tl 之 前 设置 为 6 (每 小 时 一 个 数据 点 )， 现 在 设置 为 3 
delay. = 144 保持 不 变 (每 30 分 钟 一 个 数据 点 ) 


train gen = generator (float_data, 
lookback=lookback, 
delay=delay, 
min_index=0, 
max_index=200000, 
shuffle=True, 
step=step) 
val_gen = generator(float_data, 
lookback=lookback, 
delay=delay, 
min_index=200001, 
max_index=300000, 
step=step) 
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test_gen = generator (float_data, 
lookback=lookback, 
delay=delay, 
min_index=300001, 
max_index=None, 


step=step) 
val_steps = (300000 - 200001 - lookback) // 128 
test_steps = (len(float_ data) - 300001 - lookback) // 128 


下 面 是 模型 ， 开 始 是 两 个 conv1D 层 ， 然 后 是 一 个 GRU 层 。 模 型 结果 如 图 6-31 所 示 。 


结合 一 维 卷 积 基 和 GRU 层 的 模型 





from keras.models import Sequential 
from keras import layers 
from keras.optimizers import RMSprop 


model = Sequential () 

model.add (layers.ConvilD(32, 5, activation='relu', 

input_shape= (None, float_data.shape[-1]))) 
model.add (layers .MaxPooling1lD(3)) 

model.add (layers.Conv1lD(32, 5, activation='relu')) 

model.add (layers.GRU(32, dropout=0.1, recurrent_dropout=0.5)) 
model.add (layers.Dense(1)) 


model .summary () 





model .compile (optimizer=RMSprop(), loss='mae') 

history = model.fit generator (train gen, 
steps_per_epoch=500, 
epochs=20, 
validation data=val_gen, 
validation steps=val_steps) 


Training and validation loss 


0.34] 四 @@ ”Training loss 
一 一 Validation loss 











图 6-31 一 维 卷 积 神经 网 络 +GRU 在 耶 拿 温度 预测 任务 上 的 训练 损失 和 验证 损失 


NVS 


本 章 总 结 195 





从 验证 损失 来 看 ， 这 种 架构 的 效果 不 如 只 用 正则 化 GRU， 但 速度 要 快 很 多 。 它 查看 了 两 倍 
的 数据 量 ， 在 本 例 中 可 能 不 是 非常 有 用 ， 但 对 于 其 他 数据 集 可 能 非常 重要 。 





6.4.5 小结 
下 面 是 你 应 该 从 本 节 中 学 到 的 要 点 。 





口 二 维 卷 积 神经 网 络 在 二 维 空间 中 处 理 视觉 模式 时 表现 很 好 ， 与 此 相同 ,一 维 卷 积 神经 网 
络 在 处 理 时 间 模 式 时 表现 也 很 好 。 对 于 某 些 问题 ， 特 别 是 自然 语言 处 理 任 务 ， 它 可 以 替 




















代 RNN， 并 有 旦 速度 更 快 。 
































D 通常 情况 下 ， 一 维 卷 积 神经 网 络 的 架构 与 计算 机 视觉 领域 的 二 维 卷 积 神经 网 络 很 相似 ， 
它 将 conv1D 层 和 Maxpooling1D 层 堆 登 在 一 起 , 最 后 是 一 个 全 局 池 化 运算 或 展 平 操作 。 
D 因为 RNN 在 处 理 非常 长 的 序列 时 计算 代价 很 大 ， 但 一 维 卷 积 神经 网 络 的 计算 代价 很 小 ， 








所 以 在 RNN 之 前 使 用 一 维 卷 积 神经 网 络 作 为 预 处 理 步骤 是 一 个 好 主意 ， 这 样 可 以 使 序 
列 变 短 ， 并 提取 出 有 用 的 表示 交 给 RNN 来 处 理 。 


本 章 总 结 





口 你 在 本 章 学 到 了 以 下 技术 ,它们 广泛 应 用 于 序列 数据 ( 从 文本 到 时 间 序 列 ) 组 成 的 数据 集 。 


。 如 何 对 文本 分 词 。 
。 什么 是 词 嵌入 ， 如 何 使 用 词 嵌 入。 
。 什么 是 循环 网 络 ， 如 何 使 用 循环 网 络 。 














" 如何 堆 到 RNN 层 和 使 用 双向 RNN， 以 构建 更 加 强大 的 序列 处 理 模型 。 
" 如 何 使 用 一 维 卷 积 神经 网 络 来 处 理 序列 。 
" 如 何 结 合 一 维 卷 积 神经 网 络 和 RNN 来 处 理 长 序列 。 














SliceNet )、 文 档 分 类 和 拼写 校正 。 





口 如 果 序列 数据 的 整体 顺序 很 重要 ， 那 么 最 
样 ， 最 近 的 数据 可 能 比 和 久远 的 数据 包含 更 多 的 信息 量 。 








口 如 果 整 体 顺序 没有 意义 ， 那 么 一 维 卷 积 神 











口 你 可 以 用 RNN 进行 时 间 序列 回归 (“预测 未 来 ”)、 时 间 序 列 分 类 、 时 间 序 列 异 常 检 测 和 
序列 标记 比如 找 出 句子 中 的 人 名 或 日 期 )。 
口 同样 ， 你 可 以 将 一 维 卷 积 神经 网 络 用 于 机 器 翻译 (序列 到 序列 的 卷 积 模型 ， 比 如 














好 使 用 循环 网 络 来 处 理 。 时 间 序 列 通 常 都 是 这 


经 网 络 可 以 实现 同样 好 的 效果 ， 而 且 计算 代价 





更 小 。 文 本 数据 通常 都 是 这 样 ， 在 名 首发 现 关键 词 和 在 句 尾 发 现 关 键 词 一 样 都 很 有 意义 。 








本 章 包 括 以 下 内 容 : 

口 Keras 函数 式 API 

口 使 用 Keras 回调 函数 

口 使 用 TensorBoard 可 视 化 工具 

口 开发 最 先进 模型 的 重要 最 佳 实践 








本 童 将 介绍 几 种 强大 的 工具 ， 可 以 让 你 朝 着 针对 困难 问题 来 开发 最 先进 模型 这 一 目标 更 近 
一 步 。 利 用 Keras 函数 式 API, 你 可 以 构建 类 图 ( graph-like ) 模 型 .在 不 同 的 输入 之 间 共 享 某 一 层 ， 
并 且 还 可 以 像 使 用 Python 函数 一 样 使 用 Keras 模型 。Keras 回调 函数 和 TensorBoard 基于 浏览 器 
的 可 视 化 工具 ， 让 你 可 以 在 训练 过 程 中 监控 模型 。 我 们 还 会 讨论 其 他 几 种 最 佳 实践 ， 包 括 批 标 
准 化 、 残 差 连接 、 超 参数 优化 和 模型 集成 。 


7.1 不 用 Sequential 模型 的 解决 方案 : Keras 函数 式 API 
到 目前 为 止 ， 本 书 介绍 的 所 有 神经 网 络 都 是 用 Sequential 模型 实现 的 。Seauential 模 


型 假设 ， 网 络 只 有 一 个 输入 和 一 个 输出 ， 而 且 网 络 是 层 的 线性 堆 琶 〈 见 图 7-1 )。 
输出 
不 








=| NU 











Sequential 


输入 
7-1 ” Sequential 模型 : 层 的 线性 堆 竺 





这 是 一 个 经 过 普遍 验证 的 假设 。 这 种 网 络 配 置 非常 常见 ， 以 至 于 本 书 前 面 只 用 Sequential 
模型 类 就 能 够 涵盖 许多 主题 和 实际 应 用 。 但 有 些 情况 下 这 种 假设 过 于 死板 。 有 些 网 络 需要 多 个 
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独立 的 输入 ， 有 些 网 络 则 需要 多 个 输出 ， 而 有 些 网 络 在 层 与 层 之 间 具 有 内 部 分 支 ， 这 使 得 网 络 
看 起 来 像 是 层 构成 的 图 ( graph )， 而 不 是 层 的 线性 堆 著 。 

例如 ， 有 些 任务 需要 多 模 态 ( multimodal ) 输入 。 这 些 任务 合并 来 自 不 同 输入 源 的 数据 ， 并 
使 用 不 同类 型 的 神经 层 处 理 不 同类 型 的 数据 。 假 设 有 一 个 深度 学 习 模 型 ， 试 图 利用 下 列 输 入 来 
预测 一 件 二 手 衣服 最 可 能 的 市 场 价格 : 用 户 提 供 的 元 数据 ( 比如 商品 品牌 、 已 使 用 年 限 等 )、 用 
户 提 供 的 文本 描述 与 商品 照片 。 如 果 你 只 有 元 数据 ， 那 么 可 以 使 用 one-hot 编码 ， 然 后 用 密集 
连接 网 络 来 预测 价格 。 如 果 你 只 有 文本 描述 ， 那 么 可 以 使 用 循环 神经 网 络 或 一 维 卷 积 神经 网 络 。 
如 果 你 只 有 图 像 ， 那 么 可 以 使 用 二 维 卷 积 神经 网 络 。 但 怎么 才能 同时 使 用 这 三 种 数据 呢 ? 一 种 
朴素 的 方法 是 训练 三 个 独立 的 模型 ,然后 对 三 者 的 预测 做 加 权 平 均 。 但 这 种 方法 可 能 不 是 最 优 的 ， 
因为 模型 提取 的 信息 可 能 存在 元 余 。 更 好 的 方法 是 使 用 一 个 可 以 同时 查看 所 有 可 用 的 输入 模 态 
的 模型 ， 从 而 联合 学 习 一 个 更 加 精确 的 数据 模型 一 一 这 个 模型 具有 三 个 输入 分 支 ( 见 图 7-2 )。 



































价格 预测 











(Dense 模 所 ”RNN 模 块 。] [ 卷 积 神经 网 络 模块 
| | | 
元 数据 文本 描述 图 片 

图 7-2 一 个 多 输入 模型 


同样 ， 有 些 任务 需要 预测 输入 数据 的 多 个 目标 属性 。 给 定 一 部 小 说 的 文本 ， 你 可 能 希望 将 
它 按 类 别 自动 分 类 ( 比如 爱情 小 说 或 惊悚 小 说 )， 同 时 还 希望 预测 其 大 致 的 写作 日 期 。 当 然 ， 你 
可 以 训练 两 个 独立 的 模型 : 一 个 用 于 划分 类 别 ， 一 个 用 于 预测 日 期 。 但 由 于 这 些 属性 并 不 是 统 
计 无 关 的， 你 可 以 构建 一 个 更 好 的 模型 ， 用 这 个 模型 来 学 习 同 时 预测 类 别 和 日 期 。 这 种 联合 模 
型 将 有 两 个 输出 ,或 者 说 两 个 头 (head， 见 图 7-3 )。 因 为 类 别 和 日 期 之 间 具 有 相关 性 ， 所 以 知 


























道 小 说 的 写作 日 期 有 助 于 模型 在 小 说 类 别 的 空间 中 学 到 丰富 而 又 准确 的 表示 ， 反 之 亦 然 。 
类 别 日 期 


类 别 日 期 
分 类 器 回归 器 
文本 处 理 
模块 


小 说 文本 
图 7-3 一 个 多 输出 (或 多 头 ) 模型 





198 ”第 7 章 高 级 的 深度 学 习 最 佳 实践 


























此 外 ,许多 最 新 开发 的 神经 架构 要 求 非 线性 的 网 络 拓扑 结构 ， 即 网 络 结构 为 有 向 无 环 岁 。 
比如 ，Inception 系列 网 络 ( 由 Google 的 Szegedy 等 人 开发 ) ”依赖 于 Inception 模块 ， 其 输入 被 
多 个 并 行 的 卷 积分 支 所 处 理 ， 然 后 将 这 些 分 支 的 输出 合并 为 单个 张 量 ( 见 图 7-4 )。 最 近 还 有 一 
种 趋势 是 向 模型 中 添加 残 差 连接 (residual connection )， 它 最 早出 现 于 ResNet 系列 网 络 ( 由 微 
软 的 何 恺 明 等 人 开发 )。2 残 差 连接 是 将 前 面 的 输出 张 量 与 后 面 的 输出 张 量 相 加 ， 从 而 将 前 面 的 
表示 重新 注入 下 游 数 据 流 中 ( 见 图 7-5 )， 这 有 助 于 防止 信息 处 理 流程 中 的 信息 损失 。 这 种 类 图 
网 络 还 有 许多 其 他 示例 。 

















输出 







Conv2D 
3 x 3, 步 幅 =2 
ER 
Conv2D Conv2D Conv2D 
3 x 3, 步 幅 =2 汪汪 30<3 
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区 3 人 
a 
Conv2D Conv2D AvgPool2D Conv2D 
1 x 1 步 幅 =2 下 过 下 3 x 3, 步 幅 =2 Wl 
4 





ass， 


输入 
图 7-4 ”Inception 模块 : 层 组 成 的 子 图 ， 具 有 多 个 并 行 卷 积分 文 











残 差 连接 














图 7-5 ” 残 差 连接 : 通过 特征 图 相 加 将 前 面 的 信息 重新 注入 下 游 数据 

















© SZEGEDY C, LIU W, JIAY Going deeper with convolutions [C]//Conference on Computer Vision and Pattern Recognition, 
2015. 

© HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition [C]//Conference on Computer Vision and 
Pattern Recognition, 2016. 
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这 三 个 重要 的 使 用 案例 ( 多 输入 模型 、 多 输出 模型 和 类 图 模型 )， 只 用 Keras 中 的 Sequential 
模型 类 是 无 法 实现 的 。 但 是 还 有 男 一 种 更 加 通用 、 更 加 灵活 的 使 用 Keras 的 方式 ， 就 是 函数 式 
API ( functional API )。 本 节 将 会 详细 介绍 函数 式 API 是 什么 、 能 做 什么 以 及 如 何 使 用 它 。 


























7.1.1 函数 式 API 简介 


使 用 函数 式 API， 你 可 以 直接 操作 张 量 ， 也 可 以 把 层 当 作 函数 来 使 用 ， 接 收 张 量 并 返回 张 
量 ( 因此 得 名 函数 式 API )。 


from keras import Input, layers 


input_tensor = Input (shape=(32,)) < 一 一 个 张 量 


dense = layers.Dense(32，activation='relu') < 一 一 个 层 是 一 个 函数 


output_tensor = dense(input_tensor) 、 
可 以 在 一 个 张 量 上 调用 一 个 层 ， 


它 会 返回 一 个 张 量 


我 们 首先 来 看 一 个 最 简单 的 示例 ， 并 列 展示 一 个 简单 的 Sequential 模型 以 及 对 应 的 函数 
式 API 实现 。 


from keras.models import Sequential, Model 
from keras import layers 
from keras import Input 


seq_model = Sequential() < 一 前 面 学 过 的 Sequential 模型 
seq_model.add(layers.Dense(32, activation='relu', input_shape=(64,))) 
seq_ model.add(layers.Dense(32, activation='relu')) 

seq_ model.add(layers.Dense(10, activation='softmax')) 


input_tensor = Input (shape=(64,)) 

X = layers.Dense(32, activation='relu') (input_tensor) 

X = layers.Dense(32, activation='relu') (x) 

output_tensor = layers.Dense(10, activation='softmax') (x) 


model = Model (input_ tensor, output_tensor) 
Model 类 将 输入 张 量 和 输出 张 量 
转换 为 一 个 模型 


对 应 的 函数 式 API 实现 





modqel .summary() < 一 查看 模型 


调用 model . summary () 的 输出 如 下 所 示 。 











Layer (type) Output Shape Param # 
put 1 timetayetl oe 
dense_1 (Dense) (None, 32) 2080 
dense_2 (Dense) (None, 32) 1056 
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dense_3 (Dense) (None, 10) 330 


Total params: 3,466 
Trainable params: 3,466 
Non-trainable params: 0 























这 里 只 有 一 点 可 能 看 起 来 有 点 神奇 ， 就 是 将 Mogdel 对 象 实例 化 只 用 了 一 个 输入 张 量 和 


一 个 输出 张 量 。Keras 会 在 后 台 检 索 从 input_tensor 到 output_tensor 所 包含 的 每 一 层 ， 
并 将 这 些 层 组 合成 一 个 类 图 的 数据 结构 ， 即 一 个 Model。 当 然 ， 这 种 方法 有 效 的 原因 在 于 ， 
output_tensor 是 通过 对 input_tensor 进行 多 次 变换 得 到 的 。 如 果 你 试图 利用 不 相关 的 输 
和 人 和 输出 来 构建 一 个 模型 ， 那 么 会 得 到 Runt imeError。 


ys 








>>> unrelated_ input = Input (shape= (32,)) 

>>> bad model = model = Model (unrelated input, output_tensor) 

RuntimeError: Graph disconnected: cannot 

obtain value for tensor Tensor("input_1:0", shape=(?, 64), dtype=float32) at layer 
"i 


这 个 报错 告诉 我 们 ，Keras 无 法 从 给 定 的 输出 张 量 到 达 input_1。 
对 这 种 Mogel 实例 进行 编译 、 训 练 或 评估 时 ， 其 API 与 Sequential 模型 相同 。 


model.compile(optimizer='rmsprop', loss='categorical_ crossentropy') < 一 编译 模型 





import numpy as np 4 


np.random.random( (1000, 64)) 生成 用 于 训练 的 虚构 
np.random.random( (1000, 10)) Numpy 数据 


x_train = 
y_train = 


model.fit (x train, y_train, epochs=10，batch_size=128) < 一 训练 10 轮 模型 


Score = model.evaluate(x_ train, y_train) < 一 评估 模型 


.2 ”多 输入 模型 


函数 式 API 可 用 于 构建 具有 多 个 输入 的 模型 。 通 常情 况 下 ， 这 种 模型 会 在 某 一 时 刻 用 一 个 








可 以 组 合 多 个 张 量 的 层 将 不 同 的 输入 分 支 合 并 ， 张 量 组 合 方式 可 能 是 相 加 、 连 接 等 。 这 通常 利 
用 Keras 的 合并 运算 来 实现 ， 比 如 keras.layers.add、keras.layers.concatenate 等 。 
我 们 来 看 一 个 非常 简单 的 多 输入 模型 示例 一 一 一 个 问答 模型 。 


典型 的 问答 模型 有 两 个 输入 : 一 个 自然 语言 描述 的 问题 和 一 个 文本 片段 ( 比如 新 闻 文 鞋 )， 


后 者 提供 用 于 回答 问题 的 信息 。 人 然后 模型 要 生成 一 个 回答 ， 在 最 简单 的 情况 下 ， 这 个 回答 只 包 
含 一 个 词 ， 可 以 通过 对 某 个 预定 义 的 词 表 做 softmax 得 到 ( 见 图 7-6 )。 
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参考 文本 问题 


图 7-6 问答 模型 
下 面 这 个 示例 展示 了 如 何 用 函数 式 API 构建 这 样 的 模型 。 我 们 设置 了 两 个 独立 分 支 ， 首 先 
将 文本 输入 和 问题 输入 分 别 编码 为 表示 向 量 ， 然 后 连接 这 些 向 量 ， 最 后 ， 在 连接 好 的 表示 上 添 
加 一 个 softmax 分 类 器 。 





代码 清单 7-1 用 函数 式 API 实现 双 输 入 问答 模型 
from keras.models import Model 
from keras import layers 
from keras import Input 





三 恋 
text_vocabulary size = 10000 文本 输入 是 一 个 长 度 可 变 的 


question vocabulary_size = 10000 整数 序列 。 注 意 ， 你 可 以 选 
answer_vocabulary_size = 500 择 对 输入 进行 命名 
text_input = Input (shape=(None,), dtype='int32', name='text') 


embedded text = layers.Embedding!l( 
text_vocabulary_size，64) (text_input) < 一 将 输入 榜 入 长 度 为 64 的 向 量 


encodedqd_ text = layers.LSTM(32) (embedded_text) < 一 利用 LSTM 将 向 量 编码 为 单个 向 量 





question_ input = Input (shape= (None, ), 
dtype='int32', 
name='question') ”< 一 对 问题 进行 相同 的 处 理 〈 使 用 不 同 的 层 实例 》 


embedded question = layers.Embeddingl( 
question vocabulary_size, 32) (guestion_ input) 
encoded question = layers.LSTM(16) (embedded question) 


concatenated = layers.concatenate([encoded text, encoded_ question], 


axis=-1) ”< 一 将 编码 后 的 问题 和 文本 连接 起 来 


在 上 面 添 加 一 个 
answer = layers.Dense(answer_ vocabulary_size, 


activation='softmax') (concatenated) softmax 分 类 器 


志 
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在 模型 实例 化 时 ， 指 定 
两 个 输入 和 输出 


model.compile(optimizer='rmsprop', 
loss='categorical_ crossentropy', 
metrics=['acc']) 


接 下 来 要 如 何 训练 这 个 双 输 入 模型 呢 ? 有 两 个 可 用 的 API: 我 们 可 以 向 模型 输入 一 个 由 
Numpy 数组 组 成 的 列表 ， 或 者 也 可 以 输入 一 个 将 输入 名 称 映 射 为 Numpy 数组 的 字典 。 当 然 ， 
只 有 输入 具有 名 称 时 才能 使 用 后 一 种 方法 。 


model = Model([text_input, question input], answer) 


代码 清单 7-2 将 数据 输入 到 多 输入 模型 中 





import numpy as np 


num_samples = 1000 生成 虚构 的 Numpy 
max_length = 100 数据 


text = np.random.randint (1, text_vocabulary_size, 
size=(num samples, max_length)) 


question = np.random.randint (1, question vocabulary_size, 回答 是 one-hot 编 
size= (num_ samples, max_length)) 码 的 ， 不 是 整数 

answers = np.random.randint (answer_vocabulary_size, size= (num_ samples)) 

answers = keras.utils.to_ categorical (answers, answer_vocabulary_size) 


model.fit([text, question], answers, epochs=10, batch size=128) 


model.fit({'text': text, 'gquestion': question}, answers, 


epochs=10, batch size=128) 使 用 输入 组 成 的 字典 来 拟 合 
使 用 输入 组 成 的 (只 有 对 输入 进行 命名 之 后 才 
列表 来 拟 合 能 用 这 种 方法 ) 


7.1.3 ”多 输出 模型 


利用 相同 的 方法 ， 我 们 还 可 以 使 用 函数 式 API 来 构建 具有 多 个 输出 (或 多 头 ) 的 模型 。 一 
个 简单 的 例子 就 是 一 个 网 络 试图 同时 预测 数据 的 不 同性 质 ， 比 如 一 个 网 络 ， 输 入 某 个 匿名 人 十 
的 一 系列 社交 媒体 发 帖 ， 然 后 尝试 预测 那个 人 的 属性 ， 比 如 年 龄 、 性 别 和 收入 水 平 ( 见 图 7-7 )。 


代码 清单 7-3 ”用 函数 式 API 实现 一 个 三 输出 模型 





from keras import layers 
from keras import Input 
from keras.models import Model 


vocabulary_size = 50000 
num_ income_groups = 10 


posts_input = Input (shape=(None,), dtype='int32', name='posts') 
embedded_ posts = layers.Embedding(256, vocabulary_size) (posts_input) 
X = layers.Conv1iD(128, 5, activation='relu') (embedded posts) 

x = layers.MaxPoolingl1D(5) (x) 
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layers.Conv1iD(256, 5, activation='relu') (x) 
layers.Conv1iD(256, 5, activation='relu') (x) 
layers.MaxPoolingl1D(5) (x) 
layers.Conv1iD(256, 5, activation='relu') (x) 
layers.ConvliD(256, 5, activation='relu') (x) 
layers.GlobalMaxPoolinglD() (x) 
layers.Dense(128, activation='relu') (x) 


XXX 区 x 
I 


age_prediction = layers.Dense(1,，name='age') (x) < 一 注意 ， 输 出 层 都 具有 和 名称 
income prediction = layers.Dense (num income_ groups, 

activation='softmax', 

name='income') (x) 
gender_prediction = layers.Dense(1, activation='sigmoid', name='gender') (x) 


model = Model (posts_input, 
[age_prediction, income prediction, gender prediction]) 


年 龄 收入 性 别 








一 维 卷 积 神经 网 络 
和 


社交 媒体 发 帖 
7-7 具有 三 个 头 的 社交 媒体 模型 


重要 的 是 ， 训 练 这 种 模型 需要 能 够 对 网 络 的 各 个 头 指 定 不 同 的 损失 函数 ， 例 如 ， 年 龄 预测 
是 标量 回归 任务 ， 而 性 别 预 测 是 二 分 类 任务 ， 二 者 需要 不 同 的 训练 过 程 。 但 是 ， 梯 度 下 降 要 求 
将 一 个 标量 最 小 化 ， 所 以 为 了 能 够 训练 模型 ， 我 们 必须 将 这 些 损失 合并 为 单个 标量 。 合 并 不 同 
损失 最 简单 的 方法 就 是 对 所 有 损失 求 和 。 在 Keras 中 ， 你 可 以 在 编译 时 使 用 损失 组 成 的 列表 或 
字典 来 为 不 同 输出 指定 不 同 损失 ， 然 后 将 得 到 的 损失 值 相 加 得 到 一 个 全 局 损失 ， 并 在 训练 过 程 
中 将 这 个 损失 最 小 化 。 











清单 7-4 多 输出 模型 的 编译 选项 :多重 损失 





model.compile(optimizer='rmsprop', 
loss=['mse', 'categorical crossentropy', 'binary_crossentropy']) 


model .compile(optimizer='rmsprop', 


loss={'age': 'mse', 与 上 述 写 法 等 效 (只 有 输出 层 
'income': 'categorical_crossentropy', 具有 和 名称 时 才能 采用 这 种 写法 ) 
'gender': 'binary_crossentropy'}) 


注意 ， 严 重 不 平衡 的 损失 贡献 会 导致 模型 表示 针对 单个 损失 值 最 大 的 任务 优先 进行 优化 ， 
而 不 考虑 其 他 任务 的 优化 。 为 了 解决 这 个 问题 ,我 们 可 以 为 每 个 损失 值 对 最 终 损失 的 贡献 分 配 
不 同 大 小 的 重要 性 。 如 果 不 同 的 损失 值 具有 不 同 的 取 值 范围 ， 那 么 这 一 方法 尤其 有 用 。 比 如 ， 
用 于 年 龄 回归 任务 的 均 方 误差 ( MSE ) 损失 值 通 常 在 3~5 左右 ， 而 用 于 性 别 分 类 任务 的 交叉 焙 
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损失 值 可 能 低 至 0.1。 在 这 种 情况 下 ， 为 了 平衡 不 同 损失 的 贡献 ， 我 们 可 以 让 交叉 信 损 失 的 权重 
取 10， 而 MSE 损失 的 权重 取 0.5。 


代码 清单 7-5 ”多 输出 模型 的 编译 选项 : 损失 加 权 





model .compile (optimizer='rmsprop', 
loss=['mse', 'categorical crossentropy', 'binary_crossentropy'], 
loss_weights=[0.25, 1., 10.]) 


model.compile (optimizer='rmsprop', 


loss={'age': 'mse', 
'income': 'categorical_crossentropy', 术 写 法 等 刘 
l 它 : 效 (只 三 
'gender': 'binary_crossentropy'}, 与 上 述 写法 等 效 (只 有 输出 层 





具有 名 称 时 才能 采用 这 种 写法 ) 


loss_ weights={'age': 0.25, 
'ijncome': 1., 
'gender': 10.}) 


与 多 输入 模型 相同 ， 多 输出 模型 的 训练 输入 数据 可 以 是 Numpy 数组 组 成 的 列表 或 字典 。 





代码 清单 7-6 将 数据 输入 到 多 输出 模型 中 


model.fit (posts, [age _ targets, income targets, gender targets], 


epochs=10, batch size=64) 假设 age_targets、 
income_targets 和 
model.fit (posts, {'age': age targets, 与 上 述 写 法 等 效 (只 gender_ targets 都 


'ijncome': income targets, 


'gender': gender targets}, 人 是 Numpy 数组 
epochs=10, batch size=64) 才能 采用 这 种 写法 ) 


7.1.4” 层 组 成 的 有 向 无 环 图 


利用 函数 式 API， 我 们 不 仅 可 以 构建 多 输入 和 多 输出 的 模型 ， 而 且 还 可 以 实现 具有 复杂 
的 内 部 拓扑 结构 的 网 络 。Keras 中 的 神经 网 络 可 以 是 层 组 成 的 任意 有 向 无 环 图 ( directed acyclic 
graph )。 无 环 (acyclic ) 这 个 限定 词 很 重要 ， 即 这 些 图 不 能 有 循环 。 张 量 x 不 能 成 为 生成 x 的 
某 一 层 的 输入 。 唯 一 允许 的 处 理 循环 ( 即 循环 连接 ) 是 循环 层 的 内 部 循环 。 

一 些 常 见 的 神经 网 络 组 件 都 以 图 的 形式 实现 。 两 个 著名 的 组 件 是 mception 模块 和 残 差 连接 。 
为 了 更 好 地 理解 如 何 使 用 函数 式 API 来 构建 层 组 成 的 图 ,我 们 来 看 一 下 如 何 用 Keras 实现 这 二 者 。 


1. Inception 模块 

Inception 是 一 种 流行 的 卷 积 神经 网 络 的 架构 类 型 ， 它 由 Google 的 Christian Szegedy 及 其 
同事 在 2013 一 2014 年 开发 ， 其 灵感 来 源 于 早期 的 network-in-network 架构 。? 它 是 模块 的 堆 县 ， 
这 些 模块 本 身 看 起 来 像 是 小 型 的 独立 网 络 ， 被 分 为 多 个 并 行 分 支 。Inception 模块 最 基本 的 形式 
包含 3~4 个 分 支 ， 首 先是 一 个 1 x 1 的 卷 积 ， 然 后 是 一 个 3 x3 的 卷 积 ， 最 后 将 所 得 到 的 特征 连 
接 在 一 起 。 这 种 设置 有 助 于 网 络 分 别 学 习 空间 特征 和 逐 通 道 的 特征 , 这 比 联 合 学 习 这 两 种 特征 更 
加 有 效 。Inception 模块 也 可 能 具有 更 复杂 的 形式 ， 通 常会 包含 池 化 运算 、 不 同 尺寸 的 空间 卷 积 





© LIN M, CHEN Q, YAN S. Network in network [C]//International Conference on Learning Representations, 2014. 


7.1 不 用 Sequential 模型 的 解决 方案 : Keras 函数 式 API 205 





( 比如 在 某 些 分 支 上 使 用 5 x5 的 卷 积 代 替 3 x3 的 卷 积 ) 和 不 包含 空间 卷 积 的 分 支 (只 有 一 个 
1x1 卷 积 )。 图 7-8 给 出 了 这 种 模块 的 一 个 示例 ， 它 来 自 于 Inception V3。 
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图 7-8 ”Inception 模块 


1X1 卷 积 的 作用 

我 们 已 经 知道 ， 卷 积 能 够 在 输入 张 量 的 每 一 个 方块 周围 提取 空间 图 块 ， 并 对 所 有 图 块 
应 用 相同 的 变换 。 极 端 情况 是 提取 的 图 块 只 包含 一 个 方块 。 这 时 卷 积 运算 等 价 于 让 每 个 方块 
向 量 经 过 一 个 Dense 层 : 它 计算 得 到 的 特征 能 够 将 输入 张 量 通道 中 的 信息 混合 在 一 起 ， 但 
不 会 将 跨 空 间 的 信息 混合 在 一 起 ( 因为 它 一 次 只 查看 一 个 方块 )。 这 种 1x1 卷 积 [ 也 叫 作 逐 
点 卷 积 (pointwise convolution ) ] 是 Inception 模块 的 特色 ， 它 有 助 于 区 分 开通 道 特征 学 习 和 
空间 特征 学 习 。 如 果 你 假设 每 个 通道 在 跨越 空间 时 是 高 度 自 相关 的 ， 但 不 同 的 通道 之 间 可 能 
并 不 高 度 相 关 ， 那 么 这 种 做 法 是 很 合理 的 。 


使 用 函数 式 API 可 以 实现 图 7-8 中 的 模块 ， 其 代码 如 下 所 示 。 这 个 例子 假设 我 们 有 一 个 四 
维 输入 张 量 x。 
每 个 分 支 都 有 相同 的 步 幅 值 (2)， 这 对 于 保持 所 有 分 支 输出 具有 


相同 的 尺寸 是 很 有 必要 的 ， 这 样 你 才能 将 它们 连接 在 一 起 在 这 个 分 支 中 ， 空 间 
from keras import layers 卷 积 层 用 到 了 步 幅 


branch a = layers.Conv2D(128, 1; 

activation='relu', strides=2) (x) 
layers.Conv2D(128, 1, activation='relu') (x) 
layers.Conv2D(128, 3, activation='relu', strides=2) (branch _b) 





branch_b 
branch. b 
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branch_c = layers.AveragePooling2D(3, strides=2) (x) 、 

branch_c = layers.Conv2D(128, 3, activation='relu') (branch c) 一 在 这 个 分 支 中 ， 平 均 
池 化 层 用 到 了 步 幅 

branc layers.Conv2D(128, 1, activation='relu') (x) 


奈奈 二 
branch qd = layers.Conv2D(128, 3, activation='relu') (branch_ qd) 
branch qd = layers.Conv2D(128, 3, activation='relu', strides=2) (branch_ qd) 
将 分 支 输 出 连接 在 一 起 ， 
| 得 到 模块 输出 





output = layers.concatenatel 
[branch_a, branch b, branch c, branch d], axis=-1) 





注意 ,完整 的 Inception V3 架构 内 置 于 Keras 中 ,位 置 在 keras.applications.inception_v3. 
InceptionV3， 其 中 包括 在 ImageNet 数据 集 上 预 训练 得 到 的 权重 。 与 其 密切 相关 的 男 一 个 模 
型 是 Xception,“ 它 也 是 Keras 的 applications 模块 的 一 部 分 。Xception 代表 极端 Inception 
(extreme inception )， 它 是 一 种 卷 积 神经 网 络 架构 ， 其 灵感 可 能 来 自 于 Inception。Xception 将 分 
别 进行 通道 特征 学 习 与 空间 特征 学 习 的 想法 推 向 逻辑 上 的 极端 ， 并 将 Inception 模块 替换 为 深度 
可 分 离 卷 积 ， 其 中 包括 一 个 逐 深 度 卷 积 ( 即 一 个 空间 卷 积 ， 分 别 对 每 个 输入 通道 进行 处 理 ) 和 
后 面 的 一 个 逐 点 卷 积 ( 即 一 个 1 x 1 卷 积 )。 这 个 深度 可 分 离 卷 积 实 际 上 是 Inception 模块 的 一 种 
极端 形式 ， 其 空间 特征 和 通道 特征 被 完全 分 离 。Xception 的 参数 个 数 与 Inception V3 大 致 相同 ， 
但 因为 它 对 模型 参数 的 使 用 更 加 高 效 ， 所 以 在 InageNet 以 及 其 他 大 规模 数据 集 上 的 运行 性 能 更 
好 ， 精 度 也 更 高 。 


2. 残 差 连接 

残 差 连接 ( residual connection ) 是 一 种 常见 的 类 图 网 络 组件 , 在 2015 年 之 后 的 许多 网 络 架构 
(包括 Xception ) 中 都 可 以 见 到 。2015 年 未 ,来 自 微软 的 何 已 明 等 人 在 ILSVRC ImageNet 挑战 赛 
中 获胜 >, 其 中 引入 了 这 一 方法 。 残 差 连接 解决 了 困扰 所 有 大 规模 深度 学 习 模型 的 两 个 共性 问题 
梯度 消失 和 表示 瓶 宽 。 通 常 来 说 ， 回 任何 多 于 10 层 的 模型 中 添加 残 差 连接 ， 都 可 能 会 有 所 帮助 。 

残 差 连接 是 让 前 面 某 层 的 输出 作为 后 面 某 层 的 输入 ， 从 而 在 序列 网 络 中 有 效 地 创造 了 一 条 
捷径 。 前 面 层 的 输出 没有 与 后 面 层 的 激活 连接 在 一 起 ， 而 是 与 后 面 层 的 激活 相 加 (这 里 假设 两 
个 激活 的 形状 相同 )。 如 果 它 们 的 形状 不 同 ， 我 们 可 以 用 一 个 线性 变换 将 前 面 层 的 激活 改变 成 目 
标 形 状 〈 例如， 这 个 线性 变换 可 以 是 不 带 激活 的 Dense 层 ; 对 于 卷 积 特征 图 ， 可 以 是 不 带 激 活 
1x1l 卷 积 )。 

如 果 特 征 图 的 尺寸 相同 ,在 Keras 中 实现 残 差 连接 的 方法 如 下 ,用 的 是 恒 等 残 差 连接 ( identity 
residual connection )。 这 个 例子 假设 我 们 有 一 个 四 维 输入 张 量 x。 


from keras import layers 










































































x 


Ee 2 
layers.Conv2D(128, 3, activation='relu', padding='same') (x) 4 对 x 进行 变换 





GD CHOLLET F. Xception: deep learning with depthwise separable convolutions [C]//Conference on Computer Vision and 
Pattern Recognition, 2017. 
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layers.Conv2D(128, 3, activation='relu', padding='same') (y) 
layers.Conv2D(128, 3, activation='relu', padding='same') (y) 


a 


y = layers.add([y，x]) < 一 将 原始 x 与 输出 特征 相 加 
如 果 特 征 图 的 尺寸 不 同 ， 实 现 残 差 连接 的 方法 如 下 ， 用 的 是 线性 残 差 连接 ( linear residual 
connection )。 同 样 ， 假 设 我 们 有 一 个 四 维 输入 张 量 x。 


from keras import layers 











layers.Conv2D(128, 3, activation='relu', padding='same') (x) 
layers.Conv2D(128, 3, activation='relu', padding='same') (y) 
layers.MaxPooling2D(2, strides=2) (y) 


人 


residual = layers.Conv2D(128, 1, strides=2, padding='same') (x) 


使 用 1X1 卷 积 ， 将 


y = layers.add([y, residuall]) 原始 x 张 量 线性 下 采 
| 样 为 与 y 具有 相同 的 
特征 相 加 形状 


深度 学 习 中 的 表示 瓶颈 

在 Sequential 模型 中 ， 每 个 连续 的 表示 层 都 构建 于 前 一 层 之 上 ， 这 意味 着 它 》 

问 前 一 层 激 活 中 包含 的 信息 。 如 果 某 一 层 太 小 〈 比 如 特征 维度 太 低 )， 那 么 模型 将 会 受 限 于 
该 层 激活 中 能 够 塞 入 多 少 信 息 。 

你 可 以 通过 类 比 信号 处 理 来 理解 这 个 概念 : 假设 你 有 一 条 包含 一 系列 操作 的 音频 处 理 流 
水 线 ， 每 个 操作 的 输入 都 是 前 一 个 操作 的 输出 ， 如 果 某 个 操作 将 信号 裁剪 到 低频 范围 (比如 
0~15 kHz )， 那 么 下 游 操 作 将 永远 无 法 恢复 那些 被 丢弃 的 频段 。 任 何 信 息 的 丢失 都 是 永久 性 的 。 
残 差 连接 可 以 将 较 早 的 信息 重新 注入 到 下 游 数据 中 , 从 而 部 分 解决 了 深度 学 习 模型 的 这 一 问题 。 


深度 学 习 中 的 梯度 消失 

反 向 传播 是 用 于 训练 深度 神经 网 络 的 主要 算法 ， 其 工作 原理 是 将 来 自 输 出 损失 的 反馈 信 
向 下 传播 到 更 底部 的 层 。 如 果 这 个 反馈 信号 的 传播 需要 经 过 很 多 层 ， 那 么 信号 可 能 会 变 得 非 
微弱 ， 黄 至 完全 丢失 ， 导 致 网 络 无 法 训练 。 这 个 问题 被 称 为 梯度 消失 (vanishing gradient )。 

深度 网 络 中 存在 这 个 问题 ,在 很 长 序列 上 的 循环 网 络 也 存在 这 个 问题 。 在 这 两 种 情况 下 ， 
反馈 信号 的 传播 都 必须 通过 一 长 串 操 作 。 我 们 已 经 知道 LSTM 层 是 如 何在 循环 网 络 中 解决 这 
个 问题 的 : 它 引 入 了 一 个 携带 轨道 ( carry track )， 可 以 在 与 主 处 理 轨道 平行 的 轨道 上 传播 信 
息 。 残 差 连接 在 前 馈 深 度 网 络 中 的 工作 原理 与 此 类 似 ， 但 它 更 加 简单 : 它 引入 了 一 个 纯 线 性 
的 信息 携带 轨道 ， 与 主要 的 层 堆肥 方向 平行 ， 从 而 有 助 于 跨越 任意 深度 的 层 来 传播 梯度 。 
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函数 式 API 还 有 一 个 重要 特性 ， 那 就 是 能 够 多 次 重复 使 用 一 个 层 实 例 。 如 果 你 对 一 个 层 实 

例 调用 两 次 ， 而 不 是 每 次 调用 都 实例 化 一 个 新 层 ， 那 么 每 次 调用 可 以 重复 使 用 相同 的 权重 。 这 
样 你 可 以 构建 具有 共享 分 支 的 模型 ， 即 几 个 分 支 全 都 共享 相同 的 知识 并 执行 相同 的 运算 。 也 就 
是 说 ， 这 些 分 支 共 享 相同 的 表示 ， 并 同时 对 不 同 的 输入 集合 学 习 这 些 表示 。 
举 个 例子 ,假设 一 个 模型 想 要 评估 两 个 句子 之 间 的 语义 相似 度 。 这 个 模型 有 两 个 输入 ( 需 
要 比较 的 两 个 句子 )， 并 输出 一 个 范围 在 0~1 的 分 数 ，0 表示 两 个 句子 毫 不 相关 ，1 表示 两 个 句 
子 完全 相同 或 只 是 换 一 种 表述 。 这 种 模型 在 许多 应 用 中 都 很 有 用 ， 其 中 包括 在 对 话 系统 中 删除 
重复 的 自然 语言 查询 。 

在 这 种 设置 下 ， 两 个 输入 句子 是 可 以 互 换 的 ， 因 为 语义 相似 度 是 一 种 对 称 关系 ，A 相对 
于 B 的 相似 度 等 于 B 相对 于 A 的 相似 度 。 因 此 ， 学 习 两 个 单独 的 模型 来 分 别处 理 两 个 输入 句 
子 是 没有 道理 的 。 相 反 ， 你 需要 用 一 个 LSTM 层 来 处 理 两 个 句子 。 这 个 LsTM 层 的 表示 ( 即 它 
的 权重 ) 是 同时 基于 两 个 输入 来 学 习 的 。 我 们 将 其 称 为 连 体 LSTM ( Siamese LSTM ) 或 共享 
LSTM (sharedLSTM ) 模型 。 

使 用 Keras 函数 式 API 中 的 层 共享 ( 层 重复 使 用 ) 可 以 实现 这 样 的 模型 ， 其 代码 如 下 所 示 。 


from keras import layers 
from keras import Input 
from keras.models import Model 


















































构建 模型 的 左 分 支 : 输入 是 长 度 


lstm = layers.LSTM(32) < 一 将 一 个 LSTM 层 实例 化 一 次 128 的 向 量 组 成 的 变 长 序列 





left_input = Input (shape= (None, 128)) | 
left_output = lstm(left_input) | 





构建 模型 的 右 分 支 : 如 果 调 用 已 有 的 
层 实 例 ， 那 么 就 会 重复 使 用 它 的 权重 





right_input = Input (shape= (None, 128)) 
right_output = lstm(right_input) | 





在 上 面 构建 
merged = layers.concatenate([left_output, right_output], axis=-1) 一 个 分 类 器 
predictions = layers.Dense(1, activation='sigmoid') (merged) 


model = Model([left_ input, right_input], predictions) 
model.fit([left data, right_ datal], targets) 


将 模型 实例 化 并 训练 : 训练 这 种 


模型 时 ， 基 于 两 个 输入 对 LSTM 
层 的 权重 进行 更 新 





自然 地 ， 一 个 层 实 例 可 能 被 多 次 重复 使 用 ， 它 可 以 被 调用 任意 多 次 ， 每 次 都 重复 使 用 一 组 
相同 的 权重 。 


7.1.6 ”将 模型 作为 层 
重要 的 是 , 在 函数 式 API 中 , 可 以 像 使 用 层 一 样 使 用 模型 。 实 际 上 , 你 可 以 将 模型 看 作 “ 更 
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大 的 层 "。seauential 类 和 Model 类 都 是 如 此 。 这 意味 着 你 可 以 在 一 个 输入 张 量 上 调用 模型 ， 
并 得 到 一 个 输出 张 量 。 

y = model (x) 

如 果 模 型 具有 多 个 输入 张 量 和 多 个 输出 张 量 ， 那 么 应 该 用 张 量 列表 来 调用 模型 。 

yl, y2 = modqel([x1，XxX2]) 


在 调用 模型 实例 时 ， 就 是 在 重复 使 用 模型 的 权重 ， 正 如 在 调用 层 实 例 时 ， 就 是 在 重复 使 用 
层 的 权重 。 调 用 一 个 实例 ,无 论 是 层 实例 还 是 模型 实例 ,都 会 重复 使 用 这 个 实例 已 经 学 到 的 表示 ， 
这 很 直观 。 

通过 重复 使 用 模型 实例 可 以 构建 一 个 简单 的 例子 ， 就 是 一 个 使 用 双 摄像 头 作为 输入 的 视觉 
模型 :两 个 平行 的 摄像 关 ， 相 距 儿 厘米 (一 英寸 )。 这 样 的 模型 可 以 感知 深度 ， 这 在 很 多 应 用 中 
都 很 有 用 。 你 不 需要 两 个 单独 的 模型 从 左右 两 个 摄像 头 中 分 别提 取 视 觉 特 征 ,然后 再 将 二 者 合并 。 
这 样 的 底层 处 理 可 以 在 两 个 输入 之 间 共 享 ， 即 通过 共享 层 ( 使 用 相同 的 权重 ， 从 而 共享 相同 的 
表示 ) 来 实现 。 在 Keras 中 实现 连 体 视觉 模型 ( 共享 卷 积 基 ) 的 代码 如 下 所 示 。 


from keras import layers 
from keras import applications 


from keras import Input 图 像 处 理 基础 模型 是 
Xception 网 络 〈 只 包 
xception base = applications.Xception(weights=None， 括 卷 积 基 ) 


include_top=False) 






















































































left_input = Input (shape=(250, 250, 3)) 首 
250X250 的 RGB 
right_input = Input (shape=(250, 250, 3)) 输入 是 250X250 的 图 像 


left_features = xception base(left_input) 一 > aa 4 划 开 | 3 
十 相同 的 调 
right_input = xception base(right_ input) 对 相同 的 视觉 模型 调用 两 次 





merged_features = layers.concatenatel 


[left_features, right_input], axis=-1) | 合并 后 的 特征 包含 来 自 左右 
已 唱 日 JTx 


两 个 视觉 输入 中 的 信息 


7.1.7 ”小结 


以 上 就 是 对 Keras 函数 式 API 的 介绍 ， 它 是 构建 高 级 深度 神经 网 络 架构 的 必 备 工具 。 本 节 
我 们 学 习 了 以 下 内 容 。 
口 如 果 你 需要 实现 的 架构 不 仅仅 是 层 的 线性 堆 琶 ,那么 不 要 局 限于 Sequential API。 
口 如 何 使 用 Keras 函数 式 API 来 构建 多 输入 模型 、 多 输出 模型 和 具有 复杂 的 内 部 网 络 拓扑 
结构 的 模型 。 
口 如 何 通 过 多 次 调用 相同 的 层 实例 或 模型 实例 ， 在 不 同 的 处 理 分 支 之 间 重 复 使 用 层 或 模型 
的 权重 。 
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7.2 ”使 用 Keras 回调 函数 和 TensorBoard 来 检查 并 监控 深度 学 习 模 型 


本 节 将 介绍 在 训练 过 程 中 如 何 更 好 地 访问 并 控制 模型 内 部 过 程 的 方法 。 使 用 moael.fit () 
或 model.fit_generator() 在 一 个 大 型 数据 集 上 启动 数 十 轮 的 训练 ， 有 点 类 似 于 扔 一 架 纸 飞 
机 ， 一 开始 给 它 一 点 推力 ， 之 后 你 便 再 也 无 法 控制 其 飞行 轨迹 或 着 陆 点 。 如 果 想 要 避免 不 好 的 
结果 (并 避免 浪费 纸 飞 机 )， 更 聪明 的 做 法 是 不 用 纸 飞 机 ， 而 是 用 一 架 无 人 机 ， 它 可 以 感知 其 环 
境 ， 将 数据 发 回 给 操纵 者 ， 并 且 能 够 基于 当前 状态 自主 航行 。 我 们 下 面 要 介绍 的 技术 ， 可 以 证 
model .fit() 的 调用 从 纸 飞 机 变 为 智能 的 自主 无 人 机 ， 可 以 自我 反省 并 动态 地 采取 行动 。 


7.2.1 训练 过 程 中 将 回调 函数 作用 于 模型 


训练 模型 时 ， 很 多 事情 一 开始 都 无 法 预测 。 尤 其 是 你 不 知道 需要 多 少 轮 才能 得 到 最 佳 验证 
损失 。 前 面 所 有 例子 都 采用 这 样 一 种 策略 : 训练 足够 多 的 轮 次 ， 这 时 模型 已 经 开始 过 拟 合 ， 根 
据 这 第 一 次 运行 来 确定 训练 所 需要 的 正确 轮 数 ， 然 后 使 用 这 个 最 佳 轮 数 从 头 开始 再 启动 一 次 新 
的 训练 。 当 然 ， 这 种 方法 很 浪费 。 

处 理 这 个 问题 的 更 好 方法 是 ， 当 观测 到 验证 损失 不 再 改善 时 就 停止 训练 。 这 可 以 使 用 Keras 
回调 函数 来 实现 。 回 调 函 数 (callback ) 是 在 调用 fit 时 传人 模型 的 一 个 对 象 ( 即 实现 特定 方法 
的 类 实例 )， 它 在 训练 过 程 中 的 不 同时 间 点 都 会 被 模型 调用 。 它 可 以 访问 关于 模型 状态 与 性 能 的 
所 有 可 用 数据 , 还 可 以 采取 行动 : 中 断 训练 、 保 存 模 型 、 加 载 一 组 不 同 的 权重 或 改变 模型 的 状态 。 

回调 函数 的 一 些 用 法 示例 如 下 所 示 。 

口 模型 检查 点 ( model checkpointing ) : 在 训练 过 程 中 的 不 同时 间 点 保存 模型 的 当前 权重 。 
口 提前 终止 ( early stopping ) : 如 果 验 证 损失 不 再 改善 ， 则 中 断 训练 ( 当然 ， 同 时 保存 在 训 
练 过 程 中 得 到 的 最 佳 模型 )。 

口 在 训练 过 程 中 动态 调节 某 些 参数 值 : 比如 优化 器 的 学 习 率 。 

口 在 训练 过 程 中 记录 训练 指标 和 验证 指标 ， 或 将 模型 学 到 的 表示 可 视 化 〈 这 些 表 示 也 在 不 
断 更 新 ) : 你 熟悉 的 Keras 进度 条 就 是 一 个 回调 函数 ! 

keras.callbacks 模块 包含 许多 内 置 的 回调 函数 ， 下 面 列 出 了 其 中 一 些 ， 但 还 有 很 多 没 
有 列 出 来 。 


keras.callbacks.ModelCheckpoint 
keras.callbacks.EarlyStopping 
keras.callbacks.LearningRateScheduler 
keras.callbacks.ReduceLROnNnPlateau 
keras.callbacks.CSVLogger 


下 面 介绍 其 中 几 个 回调 函数 , 让 你 了 解 如 何 使 用 它们 : Modelcheckpoint、EarlyStopping 
和 和 ReduceLROnPlateau。 











































































































1. ModelCheckpoint 与 EarlyStopping 回调 函数 
如 果 监 控 的 目标 指标 在 设 定 的 轮 数 内 不 再 改善 ， 可 以 用 Earlystopping 回调 函数 来 中 断 








7.2 使 用 Keras 回调 函数 和 TensorBoard 来 检查 并 监控 深度 学 习 模 型 pa 





训练 。 比 如 ， 这 个 回调 函数 可 以 在 刚 开始 过 拟 合 的 时 候 就 中 断 训练 ， 从 而 避免 用 更 少 的 轮 次 重 
新 训练 模型 。 这 个 回调 函数 通常 与 Modelcheckpoint 结合 使 用 ， 后 者 可 以 在 训练 过 程 中 持续 
不 断 地 保存 模型 ( 你 也 可 以 选择 只 保存 目前 的 最 佳 模 型 ， 即 一 轮 结束 后 具有 最 佳 性 能 的 模型 )。 


通过 fit 的 callbacks 参数 将 回调 函数 传 入 模型 中 ， 这 个 参数 
接收 一 个 回调 函数 的 列表 。 你 可 以 传 入 任意 个 数 的 回调 函数 





























import keras 如 果 不 再 改善 
: 就 中 断 i 监控 模型 的 
callbacks_list = [ 就 中 断 训练 、 ~ 
keras.callbacks.EarlyStoppingl( 验证 精度 如 果 精 度 在 多 于 轮 的 时 间 ‘ 即 
i 两 轮 内 不 再 改善 ， 中 断 训练 
patience=1, 
) 5 
keras.callbacks.ModelCheckpoint ( -一 在 每 轮 过 后 保存 当前 权重 
filepath='my_model.h5', +- 一 目标 模型 文件 的 保存 路 径 





monitor='val_loss', 
save_best_only=True, 
) 这 两 个 参数 的 含义 是 ， 如 果 val_loss 没有 改善 ， 那 么 不 需要 覆 
] 盖 模 型 文件 。 这 就 可 以 始终 保存 在 训练 过 程 中 见 到 的 最 佳 模型 
modqel .compile(optimizer='rmsprop', 
loss='binary_crossentropy', 


metrics=['acc']) < 你 监控 精度 ， 所 以 它 应 该 是 模型 指标 的 一 部 分 


model.fit(x, y, 


epochs=10, 注意 ， 由 于 回调 函数 要 监控 验证 损失 
batch_size=32, 和 验证 精度 ， 所 以 在 调用 fit 时 需要 
callbacks=callbacks_list, 传 入 validation_qdata (验证 数据 ) 


validation data=(x_val, y_val)) 





2. ReduceLROnPlateau 回调 函数 

如 果 验 证 损失 不 再 改善 ， 你 可 以 使 用 这 个 回调 函数 来 降低 学 习 率 。 在 训练 过 程 中 如 果 出 现 
了 损失 平台 (loss plateau )， 那 么 增 大 或 减 小 学 习 率 都 是 跳出 局 部 最 小 值 的 有 将 策略 。 下 面 这 个 
示例 使 用 了 ReduceLROnPlateau 回调 函数 。 














callbacks_list = [ 
Keras.callbacks.ReduceLROnP1ateau ( | 监控 模型 的 验证 损失 
monitor='val_loss' 
factor=0.1, -一 触发 时 将 学 习 率 除 以 10 
patience=10, 
, | 如 果 验 证 损失 在 10 轮 内 都 没有 改善 ， 
] 那么 就 触发 这 个 回调 函数 
model.fit (x, y, 
epochs=10, 注意 ， 因 为 回调 函数 要 监控 验证 损 
batch_size=32, 失 ， 所 以 你 需要 在 调用 fit 时 传 
callbacks=callbacks,_list, 入 validation_data (验证 数据 ) 


validation data=(x_val, y_val)) 
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3. 编写 你 自己 的 回调 函数 

如 果 你 需要 在 训练 过 程 中 采取 特定 行动 ， 而 这 项 行动 又 没有 包含 在 内 置 回调 函数 中 ， 那 么 
可 以 编写 你 自己 的 回调 函数 。 回 调 函 数 的 实现 方式 是 创建 keras .callbacks .Callback 类 的 
子 类 。 然 后 你 可 以 实现 下 面 这 些 方法 (从 名 称 中 即 可 看 出 这 些 方 法 的 作用 )， 它 们 分 别 在 训练 过 
程 中 的 不 同时 间 点 被 调用 。 


















































on_epoch begin -一 在 每 轮 开始 时 被 调用 

on_epoch_end 一 在 每 轮 结束 时 被 调用 

on_batch begin 一 在 处 理 每 个 批量 之 前 被 调用 

on_batch_end 一 在 处 理 每 个 批量 之 后 被 调用 

on_train_begin -一 在 训练 开始 时 被 调用 

on_train_end -一 在 训练 结束 时 被 调用 

这 些 方法 被 调用 时 都 有 一 个 1ogs 参数 ， 这 个 参数 是 一 个 字典 ， 里 面包 含 前 一 个 批量 、 前 








一 个 轮 次 或 前 一 次 训练 的 信息 , 即 训练 指标 和 验证 指标 等 。 此 外 , 回调 函数 还 可 以 访问 下 列 属性 。 
D self.modqel: 调用 回调 函数 的 模型 实例 。 
D self.valiqation_dqata: 传人 fit 作为 验证 数据 的 值 。 

下 面 是 一 个 自 定义 回调 函数 的 简单 示例 ， 它 可 以 在 每 轮 结束 后 将 模型 每 层 的 激活 保存 到 硬 
盘 〈 格 式 为 Numpy 数组 )， 这 个 激活 是 对 验证 集 的 第 一 个 样本 计算 得 到 的 。 

Import keras 

ee numpy as np 

















class ActivationLogger (keras.callbacks.Callback): 
在 训练 之 前 由 父 模型 调用 ， 告 诉 
回调 函数 是 哪个 模型 在 调用 它 





def set_model (self, model): 
self.model = model 4 
layer_outputs = [layer.output for layer in model.layers] 
self.activations_ model = keras.models.Model (model.input, 


layer_outputs) 
模型 实例 ， 返 回 





def on_epoch_endq(self，epoch，1ogs=None) : 每 层 的 激活 
if self.validation data is None: 
raise RuntimeError('Requires validation data.') 


validation sample = self.validation data[0][0:1] 


获取 验证 activations = self.activations model .predict (validation_sample) 
数据 的 第 f = open('activations at_ epoch ' + str(epoch) + '.npz', 'w') 
一 个 . t tivations) 
个 输入 np.savez (f, ac 
样本 Pe 将 数组 保存 


到 硬盘 


关于 回调 函数 你 只 需要 知道 这 么 多 ， 其 他 的 都 是 技术 细节 ， 很 容易 就 能 查 到 。 现 在 ,你 已 
经 可 以 在 训练 过 程 中 对 一 个 Keras 模型 执行 任何 类 型 的 日 志 记录 或 预定 程序 的 干预 。 








7.2.2 TensorBoard 简介 : TensorFlow 的 可 视 化 框架 
想 要 做 好 研究 或 开发 出 好 的 模型 ， 在 实验 过 程 中 你 需要 丰富 频繁 的 反馈 ， 从 而 知道 模型 内 
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部 正在 发 生 什 么 。 这 正 是 运行 实验 的 目的 : 获取 关于 模型 表现 好 坏 的 信息 ， 越 多 越 好 。 取 得 进 
展 是 一 个 反复 迭代 的 过 程 (或 循环 ) : 首先 你 有 一 个 想法 ， 并 将 其 表述 为 一 个 实验 ， 用 于 验证 
你 的 想法 是 否 正确 。 你 运行 这 个 实验 ， 并 处 理 其 生成 的 信息 。 这 又 激发 了 你 的 下 一 个 想法 。 在 
这 个 循环 中 实验 的 近代 次 数 越 多 ， 你 的 想法 也 就 变 得 越 来 越 精 确 、 越 来 越 强 大 。Keras 可 以 帮 你 
在 最 短 的 时 间 内 将 想法 转化 成 实验 ， 而 高 速 GPU 可 以 帮 你 尽快 得 到 实验 结果 。 但 如 何 处 理 实验 
结果 呢 ? 这 就 需要 TensorBoard 发 挥 作用 了 ( 见 图 7-9 )。 











可 视 化 框架 : 
TensorBoard 












深度 学 习 框 架 : K 
Keras 





基础 设施 


7-9 ”取得 进展 的 循环 


本 节 将 介绍 TensorBoard， 一 个 内 置 于 TensorFlow 中 的 基于 浏览 器 的 可 视 化 工具 。 注 意 ， 只 
有 当 Keras 使 用 TensorFlow 后 端 时 ， 这 一 方法 才能 用 于 Keras 模型 。 

TensorBoard 的 主要 用 途 是 , 在 训练 过 程 中 帮助 你 以 可 视 化 的 方法 监控 模型 内 部 发 生 的 一 切 。 
如 果 你 监控 了 除 模型 最 终 损失 之 外 的 更 多 信息 ,那么 可 以 更 清楚 地 了 解 模型 做 了 什么 、 没 做 什么 ， 
并 且 能 够 更 快 地 取得 进展 。TensorBoard 具有 下 列 巧妙 的 功能 ， 都 在 浏览 器 中 实现 。 
口 在 训练 过 程 中 以 可 视 化 的 方式 监控 指标 
口 将 模型 架构 可 视 化 
口 将 激活 和 梯度 的 直方 图 可 视 化 
口 以 三 维 的 形式 研究 能 入 

我 们 用 一 个 简单 的 例子 来 演示 这 些 功能 : 在 IMDB 情感 分 析 任务 上 训练 一 个 一 维 卷 积 神经 
网 络 。 

这 个 模型 类 似 于 6.4 节 的 模型 。 我 们 将 只 考虑 IMDB 词 表 中 的 前 2000 个 单词 ， 这 样 更 易于 
将 词 蔡 入 可 视 化 。 




















代码 清单 7-7 使 用 了 TensorBoard 的 文本 分 类 模型 





import keras 











from keras import layers 作为 特征 的 
from keras.datasets import imdb 单词 个 数 
from keras.preprocessing import sequence 在 这 么 多 单词 之 后 截断 文本 〈 这 
些 单 词 都 属于 前 max_features 
max_features = 2000 ,= 
a 个 最 常见 的 单词 ) 
max_len = 500 
(x_train, y_train), (x_ test, y_test) = imdb.1load data (num words=max_features) 


x train = sequence.pad sequences (x train, maxlen=max_len) 
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X_test = sequence.pad sequences (x_test, maxlen=max_len) 

model = keras.models.Sequential () 

model.add (layers.Embedding (max_features, 128, 
input_length=max_len, 
name=' embed' )) 

model.add (layers.ConviD(32, 7, activation='relu')) 

model.add (layers.MaxPooling1D(5)) 

model.add (layers.ConviD(32, 7, activation='relu')) 

model.add (layers.GlobalMaxPoolingl1D()) 

model.add (layers.Dense(1)) 

model .summary () 

model .compile (optimizer='rmsprop', 





loss='binary_crossentropy', 
metrics=['acc']) 


在 开始 使 用 TensorBoard 之 前 ， 我 们 需要 创建 一 个 目录 ， 用 于 保存 它 生成 的 日 志文 件 。 
为 TensorBoard 日 志文 件 创建 一 个 目录 





代码 清单 7-8 


$ mkdir my_log_ dir 


我 们 用 一 个 TensorBoarg 回调 函数 实例 来 启动 训练 。:; 
盘 的 指定 位 置 。 


代码 清单 7-9 


这 个 回调 函数 会 将 日 志 事 件 写 入 便 





使 用 一 个 TensorBoard 回调 函数 来 训练 模型 


callbacks = [ 
keras.callbacks.TensorBoard( 


log Gir="my. log_ dir", 
histogram freq=1, 
embeddings_freq=1, 


-一 日 志文 件 将 被 写 入 这 个 位 置 
| 一 每 一 轮 之 后 记录 激活 直方 图 





一 每 一 轮 之 后 记录 肉 入 数据 


) 
] 
history = model.fit (x train, y_train, 
epochs=20， 
batch_size=128， 
validation_ split=0.2, 
callbacks=callbacks) 


现在 , 你 可 以 在 命令 行 Ge TensorBoard 服务 器 , 指示 它 读 取 回 调 函 数 当前 正在 写 人 的 日 志 。 
在 安装 TensorFlow 时 ( 比如 通过 pip )，tensorboarg 程序 应 该 已 经 自动 安装 到 计算 机 里 了 。 


$ tensorboard --logdir=my_log_dir 


然后 可 以 用 浏览 器 打开 http://localhost:6006， 并 查看 模型 的 训练 过 程 ( 见 图 ps 除了 训 
练 指标 和 验证 指标 的 实时 图 表 之 外 ， 你 还 可 以 访问 HISTOGRAMS ( 直方 图 ) 标签 页 ， 并 查看 
美观 的 直方 图 可 视 化 ， 直 方 图 中 是 每 层 的 激活 值 ( 见 图 7-11 )。 
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TensorBoard SCALARS IMAGES AUDIO GRAPHS DISTRIBUTIONS HISTOGRAMS EMBEDDINGS 
Write a regex to create a tag group 2 acc 
9 acc 
回 Show data download links 
0.820 
lgnore outliers in chart scaling 
0.780 
Tooltip sorting method: default v 0.740 
0.700 
0.660 
Smoothing 0.620 -| 
0.580 + 
一 015 
= 0.000 1.000 2.000 3.000 4.000 
ry = 
2 三 
Horizontal Axis 
STEP RELATIVE WALL loss 
loss 
Runs 
0.700 
Write a regex to filter runs | 
0.600 
oO. 0.500 
0.400 个 
0.300 
0.000 1.000 2.000 3.000 4000 
TOGGLE ALL RUNS ra = 
.三 
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图 7-10 TensorBoard: 指标 监控 


SCALARS IMAGES AUDIO GRAPHS DISTRIBUTIONS HISTOGRAMS EMBEDDINGS 

















conv1d_1 
| conv1d_1/bias_0 | conv1d_1/kernel_0 
ss n= 和 = 
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一 一 
一 一 一 -一 全 — 4 一 一 一 一 一 4 
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conv1d_2 
conv1d_2_out 


dense_1 











图 7-11 TensorBoard: 激活 直方 图 
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到 





EMBEDDINGS(〈 瞬 入 ) 标签 页 让 你 可 以 查看 输入 词 表 中 2000 个 单词 的 般 入 位 置 和 空间 关系 ， 
它们 都 是 由 第 一 个 Embedding 层 学 到 的 。 因 为 柑 入 空间 是 128 维 的 ， 所 以 TensorBoard 会 使 用 
你 选择 的 降 维 算法 自动 将 其 降 至 二 维 或 三 维 ， 可 选 的 降 维 算法 有 主 成 分 分 析 (PCA ) 和 上 分 布 
随机 近邻 做 入 (tSNE )。 在 图 7-12 所 示 的 点 状 云 中 ， 可 以 清楚 地 看 到 两 个 复 : 正面 含义 的 词 和 
负面 含义 的 词 。 从 可 视 化 图 中 可 以 立刻 明显 地 看 出 ， 将 能 入 与 特定 目标 联合 训练 得 到 的 模型 是 
完全 针对 这 个 特定 任务 的 ， 这 也 是 为 什么 使 用 预 训 练 的 通用 词 艇 入 通常 不 是 一 个 好 主意 。 














SCALARS IMAGES AUDIO GRAPHS DISTRIBUTIONS HISTOGRAMS EMBEDDINGS TEXT 


5 : 》 | Points: 10000 | Dimension: 128 











图 7-12 TensorBoard: 交互 式 的 三 维 词 租 入 可 视 化 


GRAPHS ( 图 ) 标签 页 显示 的 是 Keras 模型 背后 的 底层 TensorFlow 运算 图 的 交互 式 可 视 化 
( 见 图 7-13 )。 可见 ,图 中 的 内 容 比 之 前 想象 的 要 多 很 多 。 对 于 你 刚刚 构建 的 模型 ， 在 Keras 中 
定义 模型 时 可 能 看 起 来 很 简单 ， 只 是 几 个 基本 层 的 堆 释 ; 但 在 底层 ， 你 需要 构建 相当 复杂 的 图 
结构 来 使 其 生效 。 其 中 许多 内 容 都 与 梯度 下 降 过 程 有 关 。 你 所 见 到 的 内 容 与 你 所 操作 的 内 容 之 
间 存 在 这 种 复杂 度 差异 ， 这 正 是 你 选择 使 用 Keras 来 构建 模型 、 而 不 是 使 用 原始 TensorFlow 从 
头 开 始 定义 所 有 内 容 的 主要 动机 。Keras 让 工作 流程 变 得 非常 简单 。 
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SCALARS IMAGES AUDIO GRAPHS DISTRIBUTIONS HISTOGRAMS EMBEDDINGS 
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图 7-13 TensorBoard: TensorFlow 图 可 视 化 


注意 ，Keras 还 提供 了 男 一 种 更 简洁 的 方法 一 一 keras .utils.plot_model 际 数 ， 它 可 以 
将 模型 绘制 为 层 组 成 的 图 ， 而 不 是 TensorFlow 运算 组 成 的 图 。 使 用 这 个 函数 需要 安装 Python 的 
pydot 库 和 pydot-ng 库 ， 还 需要 安装 graphviz 库 。 我 们 来 快速 看 一 下 。 


from keras.utils import plot_ model 


plot_model (model, to_file='model .png') 


这 会 创建 一 张 如 图 7-14 所 示 的 PNG 图 像 。 
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embed input: InputLayer 











了 





embed: Embedding 





了 





conv1d_1: Conv1D 














max_pooling1d_1: MaxPooling1D 











了 





conv1d_2: Conv1D 











了 





global_max_pooling1d_1: GlobalMaxPooling1D 














是 





dense_1: Dense 








图 7-14 ”将 模型 表示 为 层 组 成 的 图 ， 由 plot_mogel 生成 








你 还 可 以 选择 在 层 组 成 的 图 中 显示 形状 信息 。 下 面 这 个 例子 使 用 plot_mogdel 水 数 及 
show_shapes 选项 将 模型 拓扑 结构 可 视 化 ( 见 图 7-15 )。 


from keras.utils import plot_ model 





plot_model (model, show_ shapes=True, to_file='model .png') 





input: | (None, 500) 


embed_input: InputLayer 
output: | (None, 500) 

















input: (None, 500) 


embed: Embedding 
output: | (None, 500, 128) 











input: | (None, 500, 128) 
output: | (None, 494, 32) 


conv1d_1: Conv1D 























input: | (None, 494, 32) 
output: | (None, 98, 32) 























input | (None, 92, 32) 
output: | (None, 92, 32) 





conv1d_2: Conv1D 




















input: | (None, 92, 32) 


global_max_pooling1d_1: GlobalMaxPooling1D 
output: (None, 32) 

















了 
input: | (None, 32) 


output: | (None, 1) 


图 7-15 带 有 形状 信息 的 模型 图 





dense_1: Dense 























2 
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7.2.3 ”小结 


口 Keras 回调 函数 提供 了 一 种 简单 方法 ， 可 以 在 训练 过 程 中 监控 模型 并 根据 模型 状态 自动 
采取 行动 。 

口 使 用 TensorFlow 时 ，TensorBoard 是 一 种 在 浏览 器 中 将 模型 活动 可 视 化 的 好 方法 。 在 
Keras 模型 中 你 可 以 通过 TensorBoard 回调 函数 来 使 用 这 种 方法 。 


7.3 ”让 模型 性 能 发 挥 到 极致 


如 果 你 只 是 想 要 让 模型 具有 不 错 的 性 能 ,那么 盲目 地 尝试 网 络 架 构 足 以 达到 目的 。 本 节 中 ， 
我 们 将 为 你 提供 一 套用 于 构建 最 先进 深度 学 习 模 型 的 必 备 技术 的 快速 指南 ， 从 而 让 模型 由 “ 具 
有 不 错 的 性 能 ”上 升 到 “性 能 齐 越 且 能 够 赢得 机 器 学 习 竞赛 ”。 


7.3.1 高 级 架构 模式 


7.1.4 节 详 细 介绍 过 一 种 重要 的 设计 模式 一 一 残 差 连接 。 还 有 另外 两 种 设计 模式 你 也 应 该 知 
道 : 标准 化 和 深度 可 分 离 卷 积 。 这 些 模 式 在 构建 高 性 能 深度 卷 积 神经 网 络 时 特别 重要 ,但 在 其 
他 许多 类 型 的 架构 中 也 很 常见 。 


1. 批 标准 化 

标准 化 ( normalization ) 是 一 大 类 方法 ， 用 于 让 机 融 学 习 模 型 看 到 的 不 同样 本 彼此 之 间 更 加 
相似 ， 这 有 助 于 模型 的 学 习 与 对 新 数据 的 泛 化 。 最 常见 的 数据 标准 化 形式 就 是 你 已 经 在 本 书 中 
多 次 见 到 的 那 种 形式 : 将 数据 减 去 其 平均 值 使 其 中 心 为 0， 然 后 将 数据 除 以 其 标准 差 使 其 标准 
差 为 1。 实际 上 , 这 种 做 法 假设 数据 服从 正 态 分 布 〈《 也 叫 高 斯 分 布 ), 并 确保 让 该 分 布 的 中 心 为 0， 
同时 缩放 到 方差 为 1。 

normalized data = (data - np.mean(data, axis=...)) / np.std(data, axis=...) 

前 面 的 示例 都 是 在 将 数据 输入 模型 之 前 对 数据 做 标准 化 。 但 在 网 络 的 每 一 次 变换 之 后 都 应 
该 考虑 数据 标准 化 。 即 使 输入 Dense 或 conv2D 网 络 的 数据 均值 为 0、 方 差 为 1， 也 没有 理由 
假定 网 络 输出 的 数据 也 是 这 样 。 

批 标 准 化 (batch normalization ) 是 Ioffe 和 Szegedy 在 2015 年 提出 的 一 种 层 的 类 型 2 (在 
Keras 中 是 BatchNormalization )， 即 使 在 训练 过 程 中 均值 和 方差 随时 间 发 生变 化 ， 它 也 可 以 
适应 性 地 将 数据 标准 化 。 批 标准 化 的 工作 原理 是 ， 训 练 过 程 中 在 内 部 保存 已 读 取 每 批 数 据 均值 
和 方差 的 指数 移动 平均 值 。 批 标准 化 的 主要 效果 是 ， 它 有 助 于 梯度 传播 ( 这 一 点 和 残 差 连接 很 
像 )， 因 此 允许 更 深 的 网 络 。 对 于 有 些 特别 深 的 网 络 ， 只 有 包含 多 个 BatchNormalization 层 
时 才能 进行 训练 。 例 如 ，BatchNormalization 广泛 用 于 Keras 内 置 的 许多 高 级 卷 积 神经 网 络 
架构 ， 比 如 ResNet50、Inception V3 和 Xception。 







































































CD IOFFE S$, SZEGEDY C. Batch normalization: accelerating deep network training by reducing internal covariate shift [C]/ 
Proceedings of the 32nd International Conference on Machine Learning, 2015. 
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BatchNormalization 层 通 常 在 卷 积 层 或 密集 连接 层 之 后 使 用 。 


conv_model.add (layers .Conv2D(32, 3, activation='relu')) 一 在 卷 积 层 之 后 使 用 
conv_model .add (layers.BatchNormalization()) 





dense_model.add (layers.Dense(32, activation='relu')) 一 在 Dense 层 之 后 使 用 
dense_ model.add (layers.BatchNormalization()) 


BatchNormalization 层 接收 一 个 axis 参数 ， 它 指定 应 该 对 哪个 特征 轴 做 标准 化 。 这 
个 参数 的 默认 值 是 -1， 即 输入 张 量 的 最 后 一 个 轴 。 对 于 Dense 层 、conv1D 层 、RNN 层 和 将 
data_format 设 为 "channels_last" (通道 在 后 ) 的 conv2D 层 ， 这 个 默认 值 都 是 正确 的 。 
但 有 少数 人 使 用 将 data_format 设 为 "channels_first" (通道 在 前 ) 的 conv2D 层 ， 这 时 
特征 轴 是 编号 为 1 的 轴 ， 因 此 BatchNormalization 的 axis 参数 应 该 相应 地 设 为 1。 















































批 再 标准 化 


对 普通 批 标准 化 的 最 新 改进 是 批 再 标准 化 (batch renormalization )， 由 Ioffe 于 2017 年 提 
出 与 批 标 准 化 相 比 ， 它 具有 明显 的 优势 ， 且 代价 没有 明显 增加 。 写 作 本 书 时 ， 判断 它 能 
否 取 代 批 标准 化 还 为 时 过 早 ， 但 我 认为 很 可 能 会 取代 。 在 此 之 后 ，Klambauer 等 人 又 提出 了 
自 标准 化 神经 网 络 ( self-normalizing neural network ) 2 ， 它 使 用 特殊 的 激活 函数 ( selu ) 和 
特殊 的 初始 化 器 (lecun_normal )， 能 够 让 数据 通过 任何 Dense 层 之 后 保持 数据 标准 化 。 
这 种 方案 虽然 非常 有 趣 ， 但 目前 仅 限于 密集 连接 网 络 ， 其 有 效 性 尚未 得 到 大 规模 重复 。 


2. 深度 可 分 离 卷 积 

如 果 我 告诉 你 ， 有 一 个 层 可 以 替代 conv2D， 并 可 以 让 模型 更 加 轻 量 ( 即 更 少 的 可 训练 权 
重 参数 )、 速 度 更 快 ( 即 更 少 的 浮 点 数 运 算 )， 还 可 以 让 任务 性 能 提高 几 个 百分点 ， 你 觉得 怎么 
样 ? 我 说 的 正 是 深度 可 分 离 卷 积 ( depthwise separable convolution ) 层 ( separableconv2D ) 的 
作用 。 这 个 层 对 输入 的 每 个 通道 分 别 执行 空间 卷 积 ， 然 后 通过 逐 点 卷 积 (1x1 卷 积 ) 将 输出 通 
道 混合 ， 如 图 7-16 所 示 。 这 相当 于 将 空间 特征 学 习 和 通道 特征 学 习 分 开 ， 如 果 你 假设 输入 中 的 
空间 位 置 高 度 相 关 ， 但 不 同 的 通道 之 间 相 对 独立 ， 那 么 这 么 做 是 很 有 意义 的 。 它 需要 的 参数 要 
少 很 多 , 计算 量 也 更 小 , 因此 可 以 得 到 更 小 、 更 快 的 模型 。 因 为 它 是 一 种 执行 卷 积 更 高 效 的 方法 ， 
所 以 往往 能 够 使 用 更 少 的 数据 学 到 更 好 的 表示 ， 从 而 得 到 性 能 更 好 的 模型 。 
























































GD 参见 Sergey Ioffe 于 2017 年 发 表 的 文章 “Batch renormalization: towards reducing minibatch dependence in batch-normalized 





models” 。 
© KLAMBAUER G, UNTERTHINER T, MAYR A, et al. Self-normalizing neural networks [C]//Conference on Neural 


Information Processing Systems, 2017. 
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图 7-16 深度 可 分 离 卷 积 : 深度 卷 积 + 逐 点 卷 积 


如 果 只 用 有 限 的 数据 从 头 开始 训练 小 型 模型 ， 这 些 优点 就 变 得 尤为 重要 。 例 如 ， 下 面 这 个 
示例 是 在 小 型 数据 集 上 构建 一 个 轻 量 的 深度 可 分 离 卷 积 神经 网 络 ， 用 于 图 像 分 类 任务 〈softmax 
多 分 类 )。 


from keras.models import Sequential, Model 
from keras import layers 








height = 64 
width = 64 
channels = 3 
Dum_classes = 10 


model = Sequential () 

model.add (layers.SeparableConv2D(32, 3, 

activation='relu', 

input_shape= (height, width, channels,))) 
model.add (layers.SeparableConv2D(64, 3, activation='relu')) 
model.add (layers .MaxPooling2D (2)) 


model.add (layers.SeparableConv2D(64, 3, activation='relu')) 
model.add (layers.SeparableConv2D(128, 3, activation='relu')) 
model.add (layers .MaxPooling2D (2)) 





model.add (layers.SeparableConv2D(64, 3, activation='relu')) 
model.add (layers.SeparableConv2D(128, 3, activation='relu')) 
model.add (layers.GlobalAveragePooling2D()) 





model.add (layers.Dense(32, activation='relu')) 
model.add(layers.Dense (num classes, activation='softmax')) 


model.compile(optimizer='rmsprop', loss='categorical_ crossentropy') 
对 于 规模 更 大 的 模型 ， 深 度 可 分 离 卷 积 是 Xception 架构 的 基础 ，Xception 是 一 个 高 性 能 的 


卷 积 神经 网 络 ， 内 置 于 Keras 中 。 在 我 的 论文 “Xception: deep learning with depthwise separable 
convolutions” 中 ， 你 可 以 进一步 了 解 深度 可 分 离 卷 积 和 Xception 的 理论 基础 。 
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7.3.2” 超 参数 优化 


构建 深度 学 习 模 型 时 ， 你 必须 做 出 许多 看 似 随意 的 决定 : 应 该 堆 秋 多 少 层 ? 每 层 应 该 
包含 多 少 个 单元 或 过 滤器 ?激活 应 该 使 用 relu 还 是 其 他 函数 ? 在 某 一 层 之 后 是 否 应 该 使 用 
BatchNormalization ? 应 该 使 用 多 大 的 dropout 比率 ? 还 有 很 多 。 这 些 在 架构 层面 的 参数 叫 
作 超 参数 (hyperparameter )， 以 便 将 其 与 模型 参数 区 分 开 来 ， 后 者 通过 反 向 传播 进行 训练 。 

在 实践 中 ,经验 丰富 的 机 带 学 习 工 程 师 和 研究 人 员 会 培养 出 直觉 ， 能 够 判断 上 述 选择 哪些 
可 行 、 哪 些 不 可 行 。 也 就 是 说 ,他们 学 会 了 调节 超 参数 的 技巧 。 但 是 调节 超 参 数 并 没有 正式 成 
文 的 规则 。 如 果 你 想 要 在 某 项 任务 上 达到 最 佳 性 能 ， 那 么 就 不 能 满足 于 一 个 容易 犯错 的 人 随意 
做 出 的 选择 。 即 使 你 拥有 很 好 的 直觉 ， 最 初 的 选择 也 几乎 不 可 能 是 最 优 的 。 你 可 以 手动 调节 你 
的 选择 、 重 新 训练 模型 ， 如 此 不 停 重 复 来 改进 你 的 选择 ， 这 也 是 机 器 学 习 工 程 师 和 研究 人 员 大 
部 分 时 间 都 在 做 的 事情 。 但 是 ， 整 天 调节 超 参 数 不 应 该 是 人 类 的 工作 ， 最 好 留 给 机 器 去 做 。 

因此 ， 你 需要 制定 一 个 原则 ， 系 统 性 地 自动 探索 可 能 的 决策 空间 。 你 需要 搜索 架构 空间 ， 
并 根据 经 验 找到 性 能 最 佳 的 架构 。 这 正 是 超 参数 自动 优化 领域 的 内 容 。 这 个 领域 是 一 个 完整 的 
人 研究 领域 ,而且 很 重要 。 

超 参 数 优化 的 过 程 通常 如 下 所 示 。 

(1) 选择 一 组 超 参 数 ( 自动 选择 )。 

C) 构建 相应 的 模型 。 

(3) 将 模型 在 训练 数据 上 拟 合 ， 并 衡量 其 在 验证 数据 上 的 最 终 性 能 。 

(4) 选择 要 尝试 的 下 一 组 超 参 数 ( 自动 选择 )。 

(5) 重复 上 述 过 程 。 

(6) 最 后 ， 和 衡量 模 型 在 测试 数据 上 的 性 能 。 

这 个 过 程 的 关键 在 于 ， 给 定 许多 组 超 参 数 ， 使 用 验证 性 能 的 历史 来 选择 下 一 组 需要 评估 的 
超 参 数 的 算法 。 有 多 种 不 同 的 技术 可 供 选 择 : 贝 叶 斯 优化 、 遗 传 算法 、 简 单 随机 搜索 等 。 

训练 模型 权重 相对 人 简单: 在 小 批量 数据 上 计算 损失 函数 ， 然 后 用 反问 传播 算法 让 权重 向 正 
确 的 方向 移动 。 与 此 相反 ， 更 新 超 参数 则 非常 具有 挑战 性 。 我 们 来 考虑 以 下 两 点 。 

口 计算 反馈 信号 (这 组 超 参数 在 这 个 任务 上 是 否 得 到 了 一 个 高 性 能 的 模型 ) 的 计算 代价 可 

能 非常 高 ， 它 需要 在 数据 集 上 创建 一 个 新 模型 并 从 头 开始 训练 。 

口 超 参数 空间 通常 由 许多 离散 的 决定 组 成 ， 因 而 既 不 是 连续 的 ， 也 不 是 可 微 的 。 因 此 ， 你 

通常 不 能 在 超 参 数 空间 中 做 梯度 下 降 。 相 反 ， 你 必须 依赖 不 使 用 梯度 的 优化 方法 ， 而 这 
些 方法 的 效率 比 梯度 下 降 要 低 很 多 。 

这 些 挑战 非常 困难 ， 而 这 个 领域 还 很 年 轻 ， 因 此 我 们 目前 只 能 使 用 非常 有 限 的 工具 来 优 
化 模型 。 通 常情 况 下 ， 随 机 搜索 ( 随机 选择 需要 评估 的 超 参数 ， 并 重复 这 一 过 程 ) 就 是 最 好 的 
解决 方案 ， 虽 然 这 也 是 最 简单 的 解决 方案 。 但 我 发 现 有 一 种 工具 确实 比 随机 搜索 更 好 ， 它 就 是 
Hyperopt。 它 是 一 个 用 于 超 参 数 优化 的 Python 库 ， 其 内 部 使 用 Parzen 估计 器 的 树 来 预测 哪 组 超 
参数 可 能 会 得 到 好 的 结果 。 另 一 个 叫 作 Hyperas 的 库 将 Hyperopt 与 Keras 模型 集成 在 一 起 。 一 
定 要 试 试 。 
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注意 ”在 进行 大 规模 超 参数 自动 优化 时 ， 有 一 个 重要 的 问题 需要 牢记 ， 那 就 是 验证 集 过 拟 合 。 
因为 你 是 使 用 验证 数据 计算 出 一 个 信号 ， 然 后 根据 这 个 信号 更 新 超 参数 ， 所 以 你 实际 上 
是 在 验证 数据 上 训练 超 参 数 ， 很 快 会 对 验证 数据 过 拟 合 。 请 始终 记 住 这 一 点 。 


总 之 ， 超 参数 优化 是 一 项 强大 的 技术 ， 想 要 在 任何 任务 上 获得 最 先进 的 模型 或 者 赢得 机 吕 
学 习 竞 赛 ， 这 项 技术 都 必 不 可 少 。 思 考 一 下 : 曾经 人 们 手动 设计 特征 ， 然 后 输入 到 浅 层 机 带 学 
习 模 型 中 ， 这 肯定 不 是 最 优 的 。 现 在 ， 深 度 学 习 能 够 自动 完成 分 层 特征 工程 的 任务 ， 这 些 特 征 
都 是 利用 反馈 信号 学 到 的 ， 而 不 是 手动 调节 的 ， 事 情 本 来 就 应 该 如 此 。 同 样 ， 你 也 不 应 该 手动 
设计 横 型 架构 ， 而 是 应 该 按照 某 种 原则 对 其 进行 最 优化 。 在 写作 本 书 时 ， 超 参数 自动 优化 还 是 
一 个 非常 年 轻 且 不 成 熟 的 领域 ， 正 如 儿 年 前 的 深度 学 习 ， 但 我 预计 这 一 领域 会 在 未 来 数 年 内 莲 
勃发 展 。 


7.3.3 ”模型 集成 


想 要 在 一 项 任务 上 获得 最 佳 结 果 ， 另 一 种 强大 的 技术 是 模型 集成 (model ensembling )。 集 
成 是 指 将 一 系列 不 同 模型 的 预测 结果 汇集 到 一 起 ,从 而 得 到 更 好 的 预测 结果 。 观察 机 器 学 习 竞赛 ， 
特别 是 Kaggle 上 的 竞赛 ， 你 会 发 现 优胜 者 都 是 将 很 多 模型 集成 到 一 起 ， 它 必然 可 以 打败 任何 单 
个 模型 ， 无 论 这 个 模型 的 表现 多 么 好 。 

集成 依赖 于 这 样 的 假设 ， 即 对 于 独立 训练 的 不 同 良 好 模型 ， 它 们 表现 良好 可 能 是 因为 不 同 
的 原因 : 每 个 模型 都 从 略 有 不 同 的 角度 观察 数据 来 做 出 预测 ， 得 到 了 “真相 ”的 一 部 分 ， 但 不 
是 全 部 真相 。 你 可 能 听 说 过 育 人 摸 象 的 古代 语言 : 一 群 育 人 第 一 次 遇 到 大 象 ， 想 要 通过 触摸 来 
了 解 大 象 。 每 个 人 都 措 到 了 大 象 身体 的 不 同 部 位 ,但 只 措 到 了 一 部 分 ， 比 如 鼻子 或 一 条 腿 。 这 
些 人 描述 的 大 象 是 这 样 的 ,，“ 它 像 一 条 蛇 ”"”“ 像 一 根 柱子 或 一 棵 树 ”， 等 等 。 这 些 盲人 就 好 比 机 絮 
学 习 模 型 ,每 个 人 都 试图 根据 自己 的 假设 (这 些 假设 就 是 模型 的 独特 架构 和 独特 的 随机 权重 初 
始 化 ) 并 从 自己 的 角度 来 理解 训练 数据 的 多 面 性 。 每 个 人 都 得 到 了 数据 真相 的 一 部 分 ， 但 不 是 
全 部 真相 。 将 他 们 的 观点 汇集 在 一 起 ， 你 可 以 得 到 对 数据 更 加 准确 的 描述 。 大 象 是 多 个 部 分 的 
组 合 ， 每 个 言 人 说 的 都 不 完全 准确 ， 但 综合 起 来 就 成 了 一 个 相当 准确 的 故事 。 

我 们 以 分 类 问题 为 例 。 想 要 将 一 组 分 类 器 的 预测 结果 汇集 在 一 起 [ 即 分 类 器 集成 (ensemble 
the classifiers ) |]， 最 简单 的 方法 就 是 将 它们 的 预测 结果 取 平 均值 作为 预测 结 


































































































preds_a = model a.predict (x_val) 

preds_b = model b.predict (x_val) 使 用 4 个 不 同 的 模型 来 

preds_c = model ¢,.predict (x val) 计算 初始 预测 这 个 新 的 预测 数组 应 该 
preds_d = model d.predict (x_val) 比 任 何 一 个 初始 预测 都 
final_preds = 0.25 * (preds_a + preds_b + preds_c + preds_qd) 更 加 准确 





只 有 这 组 分 类 融 中 每 一 个 的 性 能 差不多 一 样 好 时 ， 这 种 方法 才 和 奏效 。 如 果 其 中 一 个 分 类 骨 
性 能 比 其 他 的 差 很 多 ,那么 最 终 预测 结果 可 能 不 如 这 一 组 中 的 最 佳 分 类 天 那么 好 。 
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将 分 类 需 集 成 有 一 个 更 聪明 的 做 法 ， 即 加 权 平 均 ， 其 权重 在 验证 数据 上 学 习 得 到 。 通 常 来 
说 ， 更 好 的 分 类 需 被 赋予 更 大 的 权重 ， 而 较 差 的 分 类 融 则 被 赋予 较 小 的 权重 。 为 了 找到 一 组 好 
的 集成 权重 ， 你 可 以 使 用 随机 搜索 或 简单 的 优化 算法 〈 比如 NelderMead 方法 )。 


preds_a = model a.predict (x_val 
preds_b = model b.predict (x_val 


) 
( ) ee 
preds_c = model_c.predict (x_val) 假设 (0.5,0.25, 0.1, 0.15) 
preds_qd = model d.predict (x_val) 这 些 权重 是 根据 经 验 学 到 的 


final_predqs = 0.5 * preds a + 0.25 * Preds_ b + 0.1 * preds c + 0.15 * Preds_dq 








还 有 许多 其 他 变 体 , 比如 你 可 以 对 预测 结果 先 取 指数 再 做 平均 。 一 般 来 说 ,简单 的 加 权 平 均 ， 
其 权重 在 验证 数据 上 进行 最 优化 ， 这 是 一 个 很 强大 的 基准 方法 。 

想 要 保证 集成 方法 有 效 ， 关 键 在 于 这 组 分 类 需 的 多 样 性 〈diversity )。 多 样 性 就 是 力量 。 如 
果 所 有 盲人 都 只 摸 到 大 象 的 时 子 ， 那 么 他 们 会 一 致 认为 大 象 像 蛇 ， 并 且 永 远 不 会 知道 大 象 的 真 
实 模样 。 是 多 样 性 让 集成 方法 能 够 取得 良好 效果 。 用 机 器 学 习 的 术语 来 说 ， 如 果 所 有 模型 的 偏 
差 都 在 同一 个 方向 上 ， 那 么 集成 也 会 保留 同样 的 偏差 。 如 果 各 个 模型 的 偏差 在 不 同方 向 上 ， 屠 
么 这 些 偏差 会 彼此 抵消 ， 集 成 结果 会 更 加 稳定 、 更 加 准确 。 

因此 ， 集 成 的 模型 应 该 尽 可 能 好 ， 同 时 尽 可 能 不 同 。 这 通常 意味 着 使 用 非常 不 同 的 架构 ， 
其 至 使 用 不 同类 型 的 机 器 学 习 方 法 。 有 一 件 事情 基本 上 是 不 值得 做 的 ， 就 是 对 相同 的 网 络 ， 使 
用 不 同 的 随机 初始 化 多 次 独立 训练 ， 然 后 集成 。 如 果 模 型 之 间 的 唯一 区 别 是 随机 初始 化 和 训练 
数据 的 读 取 顺序 ， 那 么 集成 的 多 样 性 很 小 ， 与 单一 模型 相 比 只 会 有 微小 的 改进 。 

我 发 现 有 一 种 方法 在 实践 中 非常 有 效 (但 这 一 方法 还 没有 推广 到 所 有 问题 领域 )， 就 是 将 基 
于 树 的 方法 ( 比如 随机 森林 或 梯度 提升 树 ) 和 深度 神经 网 络 进行 集成 。2014 年 ， 合 作者 Andrei 
Kolev 和 我 使 用 多 种 树 模 型 和 深度 神经 网 络 的 集成 ， 在 Kaggle 希 格 斯 玻 色 子 衰变 探测 挑战 赛 中 
获得 第 四 名 。 值 得 一 提 的 是 ， 集 成 中 的 某 一 个 模型 来 源 于 与 其 他 模型 都 不 相同 的 方法 ( 它 是 正 
则 化 的 贪 禁 森 林 )， 并 且 得 分 也 远 远 低 于 其 他 模型 。 不 出 所 料 ， 它 在 集成 中 被 赋予 了 一 个 很 小 的 
权重 。 但 出 乎 我 们 的 意料 , 它 极 大 地 改进 了 总 体 的 集成 结果 , 因为 它 和 其 他 所 有 模型 都 完全 不 同 ， 
提供 了 其 他 模型 都 无 法 获得 的 信息 。 这 正 是 集成 方法 的 关键 之 处 。 集 成 不 在 于 你 的 最 佳 模型 有 
多 好 ， 而 在 于 候选 模型 集合 的 多 样 性 。 

近年 来 ， 一 种 在 实践 中 非常 成 功 的 基本 集成 方法 是 宽 且 深 (wide and deep ) 的 模型 类 型 ， 
它 结合 了 深度 学 习 与 浅 层 学 习 。 这 种 模型 联合 训练 一 个 深度 神经 网 络 和 一 个 大 型 的 线性 模型 。 
对 多 种 模型 联合 训练 ， 是 实现 模型 集成 的 另 一 种 选择 。 


























































































































































































































7.3.4 小结 
口 构建 高 性 能 的 深度 卷 积 神经 网 络 时 ， 你 需要 使 用 残 差 连接 、 批 标准 化 和 深度 可 分 离 卷 积 。 
未 来 ， 无 论 是 一 维 、 二 维 还 是 三 维 应 用 ， 深 度 可 分 离 卷 积 很 可 能 会 完全 取代 普通 卷 积 ， 
因为 它 的 表示 效率 更 高 。 
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口 构建 深度 网 络 需要 选择 许多 超 参数 和 架构 ， 这 些 选 择 共同 决定 了 模型 的 性 能 。 与 其 将 这 
些 选 择 建 立 在 直觉 或 随机 性 之 上 ,不 如 系统 性 地 搜索 超 参数 空间 ,以 找到 最 佳 选择 。 目 前 ， 
这 个 搜索 过 程 的 计算 代价 还 很 高 ， 使 用 的 工具 也 不 是 很 好 。 但 Hyperopt 和 Hyperas 这 两 
个 库 可 能 会 对 你 有 所 帮助 。 进 行 超 参数 优化 时 ， 一 定 要 小 心 验证 集 过 拟 合 ! 

口 想 要 在 机 需 学 习 竞 赛 中 获胜 ， 或 者 想 要 在 某 项 任务 上 获得 最 佳 结 果 ， 只 能 通过 多 个 模型 
的 集成 来 实现 。 利 用 加 权 平 均 (权重 已 经 过 优化 ) 进行 集成 通常 已 经 能 取得 足够 好 的 效 
果 。 请 记 住 ， 多 样 性 就 是 力量 。 将 非常 相似 的 模型 集成 基本 上 是 没有 意义 的 。 最 好 的 集 
成 方法 是 将 尽 可 能 不 同 的 一 组 模型 集成 ( 这 组 模型 还 需要 具有 尽 可 能 高 的 预测 能 力 )。 
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口 本 章 我 们 学 习 了 以 下 内 容 。 
如 何 将 模型 构建 为 层 组 成 的 图 、 层 的 重复 使 用 ( 层 权 重 共享 ) 与 将 模型 用 作 Python 函 
数 ( 模型 模板 )。 
你 可 以 使 用 Keras 回调 函数 在 训练 过 程 中 监控 模型 ， 并 根据 模型 状态 采取 行动 。 
a TensorBoard 可 以 将 指标 、 激 活 直方 图 甚至 谍 入 空间 可 视 化 。 
a 什么 是 批 标准 化 、 座 度 可 分 离 卷 积 和 残 差 连接 。 
= 为 什么 应 该 使 用 超 参 数 优化 和 模型 集成 。 
口 借助 这 些 新 工具 ， 你 可 以 在 现实 世界 中 更 好 地 利用 深度 学 习 ， 并 可 以 开始 构建 具有 高 度 
竞争 力 的 次 度 学 习 模 型 。 
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本 章 包括 以 下 内 容 : 

口 使 用 LSTM 生成 文本 
口 实现 DeepDream 

口 实现 神经 风格 迁移 

口 变 分 自 编码 带 

口 了 解 生成 式 对 抗 网 络 








人 工 智 能 模拟 人 类 思维 过 程 的 可 能 性 ， 并 不 局 限于 被 动 性 任务 ( 比如 目标 识别 ) 和 大 多 数 
反应 性 任务 〈 比如 驾驶 汽车 )， 它 还 包括 创造 性 活动 。 我 曾经 宣称 ， 在 不 远 的 未 来 ， 我 们 所 消费 
的 大 部 分 文化 内 容 ， 其 创造 过 程 都 将 得 到 来 自 人 工 智 能 的 实质 性 帮助 。 当 时 是 2014 年 ， 人 们 完 
全 不 相信 我 ， 即 使 是 长 期 从 事 机 器 学 习 的 人 也 不 信 。 但 仅 三 年 的 时 间 ， 质 疑 声 就 以 司 人 的 速度 
减弱 了 。2015 年 夏天 ， 我 们 见识 了 Google 的 DeepDream 算法 ， 它 能 够 将 一 张 图 像 转 化 为 狗 眼 
睛 和 错觉 式 伪 影 ( pareidolic artifact ) 混合 而 成 的 迷 幻 图 案 。2016 年 ， 我 们 使 用 Prisma 应 用 程序 
将 照片 变 成 各 种 风格 的 绘画 。2016 年 夏天 发 布 了 一 部 实验 性 短片 Sunspring， 它 的 剧本 是 由 长 短 
期 记忆 (LSTM ) 算法 写成 的 ， 包括 其 中 的 对 话 。 最 近 可 能 你 听 过 神经 网 络 生 成 的 实验 性 音乐 。 

的 确 ， 到 目前 为 止 ， 我们 见 到 的 人 工 智 能 艺术 作品 的 水 平 还 很 低 。 人 工 智 能 还 远 远 比 不 上 
人 类 编剧 、 画 家 和 作曲 家 。 但 是 ， 替 代 人 类 始终 都 不 是 我 们 要 谈论 的 主题 ， 人 工 智能 不 会 替代 
我 们 自己 的 智能 ， 而 是 会 为 我 们 的 生活 和 工作 带 来 更 多 的 智能 ， 即 另 一 种 类 型 的 智能 。 在 许多 
领域 ， 特 别 是 创新 领域 中 ， 人 类 将 会 使 用 人 工 智 能 作为 增强 自身 能 力 的 工具 ， 实 现 比 人 工 智能 
更 加 强大 的 智能 。 

很 大 一 部 分 的 艺术 创作 都 是 简单 的 模式 识别 与 专业 技能 。 这 正 是 很 多 人 认为 没有 吸引 力 、 
甚至 可 有 可 无 的 那 部 分 过 程 。 这 也 正 是 人 工 智 能 发 挥 作用 的 地 方 。 我 们 的 感知 模式 、 话 言 和 艺 
术 作 品 都 具有 统计 结构 。 学 习 这 种 结构 是 深度 学 习 算法 所 擅长 的 。 机 器 学 习 模型 能 够 对 图 像 、 
音乐 和 故事 的 统计 潜在 空间 (latent space ) 进行 学 习 ， 然 后 从 这 个 空间 中 采样 ( sample )， 创 造 
出 与 模型 在 训练 数据 中 所 见 到 的 艺术 作品 具有 相似 特征 的 新 作品 。 当 然 ， 这 种 采样 本 身 并 不 是 
艺术 创作 行为 。 它 只 是 一 种 数学 运算 ， 算 法 并 没有 关于 人 类 生活 、 人 类 情感 或 我 们 人 生 经 验 的 
基础 知识 ; 相反 ， 它 从 一 种 与 我 们 的 经 验 完全 不 同 的 经 验 中 进行 学 习 。 作 为 人 类 旁观 者 ， 只 能 
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靠 我 们 的 解释 才能 对 模型 生成 的 内 容 赋 予 意义 。 但 在 技艺 高 超 的 艺术 家 手中 ,算法 生成 可 以 变 
得 非常 有 意义 ， 并 且 很 美 。 潜 在 空间 采样 会 变 成 一 支 画 笔 ， 能 够 提高 艺术 家 的 能 力 ， 增 强 我 们 
的 创造 力 ， 并 拓展 我 们 的 想象 空间 。 此 外 ， 它 也 不 需要 专业 技能 和 练习 ， 从 而 让 艺术 创作 变 得 
更 加 容易 。 它 创造 了 一 种 纯粹 表达 的 新 媒介 ， 将 艺术 与 技巧 相 分 离 。 

Iannis Xenakis 是 电子 音乐 和 算法 音乐 领域 一 位 有 远见 的 先驱 ，20 世纪 60 年 代 ， 对 于 将 自 
动 化 技术 应 用 于 音乐 创作 ， 他 表达 了 与 上 面相 同 的 观点 : 

















作曲 家 从 繁琐 的 计算 中 解脱 出 来 ， 从 而 能 够 全 神 贯 注 于 解决 新 音乐 形式 所 带 来 的 
一 般 性 问题 ， 并 在 修改 输入 数据 值 的 同时 探索 这 种 形式 的 鲜 为 人 知之 处 。 例 如 ， 他 可 
以 测试 所 有 的 乐器 组 合 ， 从 独奏 到 室内 管弦 乐队 再 到 大 型 管弦 乐队 。 在 电子 计算 机 的 
帮助 下 ， 作 曲 家 变 成 了 一 名 飞行 员 : 他 按 下 按钮 ， 引 入 坐标 ， 并 监控 宇宙 飞船 在 声音 
空间 中 的 航行 ， 飞 船 穿越 声波 的 星座 和 星系 ， 这 是 以 前 只 能 在 类 不 可 及 的 梦 中 出 现 的 
场景。 





本 章 将 从 各 个 角度 探索 深度 学 习 在 增强 艺术 创作 方面 的 可 能 性 。 我 们 将 介绍 序列 数据 生成 
( 可 用 于 生成 文本 或 音乐 ) DeepDream 以 及 使 用 变 分 自 编码 器 和 生成 式 对 抗 网 络 进行 图 像 生成 。 
我 们 会 让 计算 机 凭空 创造 出 前 所 未 见 的 内 容 ， 可 能 也 会 让 你 梦 见 科技 与 艺术 交汇 处 的 奇妙 可 能 。 
让 我 们 开始 吧 。 


8.1 使 用 LSTM 生成 文本 


本 节 将 会 探讨 如 何 将 循环 神经 网 络 用 于 生成 序列 数据 。 我 们 将 以 文本 生成 为 例 ， 但 同样 的 
技术 也 可 以 推广 到 任何 类 型 的 序列 数据 ， 你 可 以 将 其 应 用 于 音符 序列 来 生成 新 音乐 ， 也 可 以 应 
用 于 笔画 数据 的 时 间 序 列 ( 比如， 艺术 家 在 iPad 上 绘画 时 记录 的 笔画 数据 ) 来 一 笔 一 笔 地 生成 
绘画 ， 以 此 类 推 。 

序列 数据 生成 绝 不 仅 限于 艺术 内 容 生 成 。 它 已 经 成 功 应 用 于 语音 合成 和 聊天 机 器 人 的 对 话 
生成 。Google 于 2016 年 发 布 的 Smart Reply (智能 回复 ) 功能 ， 能 够 对 电子 邮件 或 短信 自动 生 
成 一 组 快速 回复 ， 采 用 的 也 是 相似 的 技术 。 


8.1.1 生成 式 循 环 网 络 简 史 


截至 2014 年 年 底 ， 还 没什么 人 见 过 LSTM 这 一 缩写 ， 即 使 在 机 器 学 习 领 域 也 不 常见 。 用 循 
环 网 络 生成 序列 数据 的 成 功 应 用 在 2016 年 才 开 始 出 现在 主流 领域 。 但 是 ， 这 些 技术 都 有 着 相当 
长 的 历史 ， 最 早 的 是 1997 年 开发 的 LSTM 算法 。” 这 一 新 算法 早期 用 于 逐 字符 地 生成 文本 。 


























(CD XENAKIS I. Musiques formelles: nouveaux principes formels de composition musicale [J]]. Special issue of La Revue 
musicale, 1963(253-254). 
© HOCHREITER S$, SCHMIDHUBER J. Long short-term memory [J]. Neural Computation, 1997, 9(8): 1735-1780. 
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2002 年 ,当时 在 瑞士 Schmidhuber 实验 室 工作 的 Douglas Eck 首次 将 LSTM 应 用 于 音乐 生成 ， 
并 得 到 了 令 人 满意 的 结果 。Eck 现在 是 Google Brain ( 谷歌 大 脑 ) 的 研究 人 员 ，2016 年 他 在 那里 
创建 了 一 个 名 为 Magenta 的 新 研究 小 组 ， 重 点 研究 将 现代 深度 学 习 技术 应 用 于 制作 迷人 的 音乐 。 
有 时候， 好 的 想法 需要 15 年 才能 变 成 实践 。 

在 20 世纪末 和 21 世纪 初 ，Alex Graves 在 使 用 循环 网 络 生成 序列 数据 方面 做 了 重要 的 开创 
性 工作 。 特 别 是 他 在 2013 年 的 工作 ， 利 用 笔触 位 置 的 时 间 序 列 将 循环 混合 密度 网 络 应 用 于 生成 
类 似 人 类 的 手写 笔迹 ， 有 人 认为 这 是 一 个 转折 点 。? 在 那个 特定 时 刻 ， 神 经 网 络 的 这 个 具体 应 
用 中 ， 能 够 做 梦 的 机 器 这 一 概念 适时 地 引起 了 我 的 兴趣 ， 并 且 在 我 开始 开发 Keras 时 为 我 提供 
了 重要 的 灵感 。Graves 在 2013 年 上 传 到 预 印 本 服务 器 arXiv 上 的 LaTeX 文件 中 留 下 了 一 条 类 似 
的 注释 性 评论 :“ 序 列 数 据 生成 是 计算 机 所 做 的 最 接近 于 做 梦 的 事情 。 几 年 之 后 ， 我 们 将 这 些 
进展 视 作 理所当然 ， 但 在 当时 看 到 Graves 的 演示 ， 很 难 不 为 其 中 所 包含 的 可 能 性 感到 惊叹 并 受 
到 启发 。 

从 那 以 后 ,循环 神经 网 络 已 被 成 功 应 用 于 音乐 生成 、 对 话 生 成 、 图 像 生成 、 语 音 合成 和 分 
子 设计 。 它 甚至 还 被 用 于 制作 电影 剧本 ， 然 后 由 真人 演员 来 表演 。 


8.1.2 ”如 何 生成 序列 数据 


用 深度 学 习 生 成 序列 数据 的 通用 方法 ， 就 是 使 用 前 面 的 标记 作为 输入 ， 训 练 一 个 网 络 〈 通 
党 是 循环 神经 网 络 或 卷 积 神经 网 络 ) 来 预测 序列 中 接 下 来 的 一 个 或 多 个 标记 。 例 如 ， 给 定 输入 
the cat is on the ma， 训 练 网 络 来 预测 目标 t， 即 下 一 个 字符 。 与 前 面 处 理 文本 数据 时 一 样 ， 标 记 
(token ) 通常 是 单词 或 字符 ， 给 定 前 面 的 标记 ， 能 够 对 下 一 个 标记 的 概率 进行 建 模 的 任何 网 络 
都 叫 作 语言 模型 ( language model )。 语 言 模型 能 够 捕捉 到 语言 的 潜在 空间 (latent space )， 即 语 
言 的 统计 结构 。 

一 旦 训练 好 了 这 样 一 个 语言 模型 ， 就 可 以 从 中 采样 (sample， 即 生成 新 序列 )。 癌 模型 中 输 
人 一 个 初始 文本 字符 串 [ 即 条 件数 据 ( conditioning data ) ]， 要 求 模 型 生成 下 一 个 字符 或 下 一 个 
单词 (甚至 可 以 同时 生成 多 个 标记 )， 然 后 将 生成 的 输出 添加 到 输入 数据 中 ， 并 多 次 重复 这 一 过 
程 ( 见 图 8-1 )。 这 个 循环 可 以 生成 任意 长 度 的 序列 ， 这 些 序列 反映 了 模型 训练 数据 的 结构 ， 它 
们 与 人 类 书写 的 句子 几乎 相同 。 在 本 节 的 示例 中 ， 我 们 将 会 用 到 一 个 LSTM 层 ， 向 其 输入 从 文 
本 语 料 中 提取 的 Y 个 字符 组 成 的 字符 串 ， 然 后 训练 模型 来 生成 第 N+1 个 字符 。 模 型 的 输出 是 对 
所 有 可 能 的 字符 做 softmax， 得 到 下 一 个 字符 的 概率 分 布 。 这 个 LSTM 叫 作 字 符 级 的 神经 语言 模 


型 (character-level neural language model )。 






































































































































GD 参见 Alex Graves 于 2013 年 发 表 的 文章 “Generating sequences with recurrent neural networks”。 
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下 一 个 字符 的 pe 
概率 分 布 时 下 = 中 党 符 
初始 文本 初始 文本 进行 采样 


The cat sat on the m >| 语言 模型 > | | =>| 采样 策略 下 一 > a 

Wi | 下 到 

The cat sat on the ma >| 语言 模型 > | | =| 采样 策略 一 一 
国 
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图 8-1 使 用 语言 模型 逐个 字符 生成 文本 的 过 程 

















8.1.3 采样 策略 的 重要 性 


生成 文本 时 ， 如 何 选择 下 一 个 字符 至 关 重 要 。 一 种 简单 的 方法 是 贪 梦 采 样 (greedy sampling )， 
就 是 始终 选择 可 能 性 最 大 的 下 一 个 字符 。 但 这 种 方法 会 得 到 重复 的 、 可 预测 的 字符 串 ， 看 起 来 
不 像 是 连贯 的 语言 。 一 种 更 有 趣 的 方法 是 做 出 稍 显 意外 的 选择 : 在 采样 过 程 中 引入 随机 性 ， 即 
从 下 一 个 字符 的 概率 分 布 中 进行 采样 。 这 叫 作 随 机 采样 (stochastic sampling ，stochasticity 在 这 
个 领域 中 就 是 “随机 ”的 意思 )。 在 这 种 情况 下 ， 根 据 模型 结果 ， 如 果 下 一 个 字符 是 e 的 概率 为 
0.3 ,那么 你 会 有 30% 的 概率 选择 它 。 注 意 , 贪 禁 采样 也 可 以 被 看 作 从 一 个 概率 分 布 中 进行 采样 ， 
即 某 个 字符 的 概率 为 1， 其 他 所 有 字符 的 概率 都 是 0。 

从 模型 的 softmax 输出 中 进行 概率 采样 是 一 种 很 巧妙 的 方法 ， 它 甚至 可 以 在 某 些 时 候 采 样 
到 不 常见 的 字符 ， 从 而 生成 看 起 来 更 加 有 趣 的 句子 ， 而 且 有 时 会 得 到 训练 数据 中 没有 的 、 听 起 
来 像 是 真实 存在 的 新 单词 ， 从 而 表现 出 创造 性 。 但 这 种 方法 有 一 个 问题 ， 就 是 它 在 采样 过 程 中 
无 法 控制 随机 性 的 大 小 。 

为 什么 需要 有 一 定 的 随机 性 ?考虑 一 个 极端 的 例子 一 一 纯 随 机 采样 ， 即 从 均匀 概率 分 布 中 
抽取 下 一 个 字符 ， 其 中 每 个 字符 的 概率 相同 。 这 种 方案 具有 最 大 的 随机 性 ， 换 名 话说 ， 这 种 概 
率 分 布 具 有 最 大 的 炉 。 当 然 ， 它 不 会 生成 任何 有 趣 的 内 容 。 再 来 看 男 一 个 极端 贪 禁 采 样 。 
贪 禁 采 样 也 不 会 生成 任何 有 趣 的 内 容 ， 它 没有 任何 随机 性 ， 即 相应 的 概率 分 布 具有 最 小 的 箭 。 
从 “真实 ”概率 分 布 ( 即 模型 softmax 因数 输出 的 分 布 ) 中 进行 采样 ， 是 这 两 个 极端 之 间 的 一 
个 中 间 上 点。 但是， 还 有 许多 其 他 中 间 点 具有 更 大 或 更 小 的 烂 ， 你 可 能 希望 都 研究 一 下 。 更 小 的 
烂 可 以 让 生成 的 序列 具有 更 加 可 预测 的 结构 ( 因此 可 能 看 起 来 更 真实 )， 而 更 大 的 炉 会 得 到 更 加 
出 人 意料 且 更 有 创造 性 的 序列 。 从 生成 式 模型 中 进行 采样 时 ， 在 生成 过 程 中 探索 不 同 的 随机 性 
大 小 总 是 好 的 做 法 。 我 们 人 类 是 生成 数据 是 否 有 趣 的 最 终 判 断 者 ， 所 以 有 趣 是 非常 主观 的 ， 我 
们 无 法 提前 知道 最 佳 炉 的 位 置 。 

为 了 在 采样 过 程 中 控制 随机 性 的 大 小 ， 我 们 引入 一 个 叫 作 softmax 温度 ( softmax temperature ) 
的 参数 ， 用 于 表示 采样 概率 分 布 的 恼 ， 即 表示 所 选择 的 下 一 个 字符 会 有 和 多么 出 人 意料 或 多 么 可 
预测 。 给 定 一 个 temperature 值 ， 将 按照 下 列 方法 对 原始 概率 分 布 ( 即 模型 的 softmax 输出 ) 
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进行 重新 加 权 ， 计 算得 到 一 个 新 的 概率 分 布 。 
代码 清单 8-1 ”对 于 不 同 的 softmax 温度 ， 对 概率 分 布 进行 重新 加 权 








import numpy as np 


—> def reweight distribution(original_ distribution, temperature=0.5): 
distripbution = np.log(original distribution) / temperature 
distribution = np.exp (distribution) 
return distribution / np.sum(distribution) 

original distribution 是 概率 值 组 

成 的 一 维 Numpy 数组 ， 这 些 概率 值 之 

和 必须 等 于 1。temperature 是 一 个 


因子 ， 用 于 定量 描述 输出 分 布 的 类 


更 高 的 温度 得 到 的 是 箭 更 大 的 采样 分 布 ， 会 生成 更 加 出 人 意料 、 更 加 无 结构 的 生成 数据 ， 
而 更 低 的 温度 对 应 更 小 的 随机 性 ， 以 及 更 加 可 预测 的 生成 数据 ( 见 图 8-2 )。 


返回 原始 分 布 重新 加 权 后 的 结果 。 
distribution 的 求 和 可 能 不 再 等 
于 1， 因 此 需要 将 它 除 以 求 和 ， 以 
得 到 新 的 分 布 





























温度 =0.01 温度 = 0.2 温度 = 0.4 
采 04| 04| 04| 
柑 ， a | 
无 
的 


离散 元 素 (字符 ) 


温度 =0.6 温度 =0.8 温度 =1.0 


oa| oa| oa| 

oa| oa| oa| 

| od od | | | | | 
Ws 0 2 4 6 10 “95 9 2 加 6 8 10 005 0 2 4 8 0 


图 8-2 ”对 同一 个 概率 分 布 进行 不 同 的 重新 加 权 。 更 低 的 温度 = 更 确定 ， 更 高 的 温度 = 更 随机 
































8.1.4 ”实现 字符 级 的 LSTM 文本 生成 


下 面 用 Keras 来 实现 这 些 想法 。 首 先 需 要 可 用 于 学 习 语 言 模型 的 大 量 文本 数据 。 我 们 可 以 
使 用 任意 足够 大 的 一 个 或 多 个 文本 文件 一 一 维基 百科 、《 指 环 王 》 等 。 本 例 将 使 用 尼采 的 一 些 作 
品 ， 他 是 19 世纪 末期 的 德国 哲学 家 ， 这 些 作 品 已 经 被 翻译 成 英文 。 因 此 ， 我 们 要 学 习 的 语言 模 
型 将 是 针对 于 尼采 的 写作 风格 和 主题 的 模型 ， 而 不 是 关于 英语 的 通用 模型 。 
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1. 准备 数据 
首先 下 载 语 料 ， 并 将 其 转换 为 小 写 。 





代码 清单 8-2 下 载 并 解析 初始 文本 文件 


import keras 
import numpy as np 


path = keras.utils.get_ filel( 
'nietzsche.txt', 
origin='https://s3.amazonaws.com/text-datasets/nietzsche.txt') 
text = open(path) .read() .lower() 
print('Corpus length:', len(text)) 


接 下 来 ,我 们 要 提取 长 度 为 maxlen 的 序列 ( 这 些 序 列 之 间 存 在 部 分 重 攻 )， 对 它们 进行 
one-hot 编码 ， 然 后 将 其 打包 成 形状 为 (sequences，maxlen，unique_characters) 的 三 维 
Numpy 数组 。 与 此 同时 ， 我 们 还 需要 准备 一 个 数组 y， 其 中 包含 对 应 的 目标 ， 即 在 每 一 个 所 提 
取 的 序列 之 后 出 现 的 字符 (已 进行 one-hot 编码 )。 


代码 清单 8-3 ”将 字符 序列 向 量化 














maxlen = 60 < 一 提取 60 个 字符 组 成 的 序列 

step = 3 一 每 3 个 字符 采样 一 个 新 序列 
sentences = [] 一 保存 所 提取 的 序列 
next_chars = [] 一 保存 目标 《〈 即 下 一 个 字符 ) 
for i in range(0, len(text) - maxlen, step): 


sentences.append (text[i: i + maxlen]) 
next_chars.append (text[i + maxlen]) 


print('Number of sequences:', len(sentences)) 

. 一 个 字典 ， 将 唯一 
chars = sorted(list (set (text))) < 一 语 料 中 唯一 字符 组 成 的 列表 字符 映射 为 它 在 列 
print ('Unique characters:', lenl(chars)) 

2 ha 4 
char_indices = dict((char, chars.index(char)) for char in chars) 表 chars 中 的 索引 
print ('Vectorization...') 

x = np.zeros((len(sentences), maxlen, len(chars)), dtype=np.bool) 

y = np.zeros((len(sentences), len(chars)), dtype=np.bool) 

for i, sentence in enumerate(sentences): 将 字符 one-hot 编码 为 
for t, char in enumerate(sentence): 二 进 制 数 组 


[i tt, char_ indices[lehar]l] = 1 


yl[i, char_indices [next_chars[i]]] 于 


2. 构建 网 络 

这 个 网 络 是 一 个 单 层 LSTM， 然 后 是 一 个 Dense 分 类 器 和 对 所 有 可 能 字符 的 softmax。 但 要 
注意 ,循环 神经 网 络 并 不 是 序列 数据 生成 的 唯一 方法 ， 最 近 已 经 证 明 一 维 卷 积 神经 网 络 也 可 以 
成 功用 于 序列 数据 生成 。 





232 第 8 章 生成 式 深度 学 习 





代码 清单 8-4 用 于 预测 下 一 个 字符 的 单 层 LSTM 模型 


from keras import layers 





model = keras.models.Sequential() 
model.add (layers.LSTM(128, input_shape= (maxlen, len(chars)))) 
model.add (layers.Dense(len(chars), activation='softmax')) 


目标 是 经 过 one-hot 编码 的 ， 所 以 训练 模型 需要 使 用 categorical_crossentropy 作为 
损失 。 


代码 清单 8-5 ”模型 编译 配置 





optimizer = keras.optimizers.RMSprop (lr=0.01) 
model.compile(loss='categorical_crossentropy', optimizer=optimizer) 


3. 训练 语言 模型 并 从 中 采样 

给 定 一 个 训练 好 的 模型 和 一 个 种 子 文本 片段 ， 我 们 可 以 通过 重复 以 下 操作 来 生成 新 的 文本 。 

(1) 给 定 目 前 已 生成 的 文本 ， 从 模型 中 得 到 下 一 个 字符 的 概率 分 布 。 

CO) 根据 某 个 温度 对 分 布 进行 重新 加 权 。 

(3) 根据 重新 加 权 后 的 分 布 对 下 一 个 字符 进行 随机 采样 。 

(4) 将 新 字符 添加 到 文本 末尾 。 

下 列 代 码 将 对 模型 得 到 的 原始 概率 分 布 进行 重新 加 权 ， 并 从 中 抽取 一 个 字符 索引 [采样 函 
数 (sampling function ) ]。 


代码 清单 8-6 ”给 定 模型 预测 ， 采 样 下 一 个 字符 的 函数 





def sample(preds, temperature=1.0): 
preds = np.asarray (preds) .astype('float64') 
preds = np.log(preds) / temperature 
exp_preds = np.exp (preds) 
preds = exp_preds / np.suml(exp_preds) 
probas = np.random.multinomial (1, preds, 1) 
return np.argmax (probas) 


最 后 ， 下 面 这 个 循环 将 反复 训练 并 生成 文本 。 在 每 轮 过 后 都 使 用 一 系列 不 同 的 温度 值 来 生成 
文本 。 这 样 我 们 可 以 看 到 ， 随 着 模型 收敛 ， 生 成 的 文本 如 何 变 化 ， 以 及 温度 对 采样 策略 的 影响 。 





代码 清单 8-7 文本 生成 循环 


import random 


import sys 将 模型 训练 60 轮 

for epoch in range(1, 60): 将 模型 在 数据 上 
print ('epoch', epoch) 拟 合 一 次 
model.fit(x, y, batch size=128, epochs=1) 
start_index = random.randint (0, len(text) - maxlen - 1) 


随机 选择 一 个 文本 种 子 


generated text = text[start_ index: start_index + maxlen] 
print('--- Generating with seed: "' + generateqd text + '"') 
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for temperature in [0.2, 0.5, 1.0, 1.2]: a 
print('—---——— temperature:', temperature) 尝试 一 系列 不 同 的 
sys.stdout .write(generated text) 采样 温度 


for i in range(400): 


从 种 子 文 - 

pled = np.zeros((1, maxlen, lenl(chars))) Rs es 
本 开始， for t, char in enumerate (generated text) : 对 目前 生成 的 字符 进行 
生成 400 sampled[0, t, char_indices[char]] = 1. one-hot 编码 
个 字符 


preds = model.predict (sampled, verbose=0)1[0] 
next_index = sample(preds, temperature) 对 下 一 个 字符 进行 采样 
next_char = chars[next_index] 


generated text += next_char 
generated text = generated text[l1:] 


sys.stdout.write(next_char) 


这 里 我 们 使 用 的 随机 种 子 文本 是 new faculty, and the jubilation reached its climax when kant。 
第 20 轮 时 ，temperature=0.2 的 输出 如 下 所 示 ， 此 时 模型 还 远 没 有 完全 收敛 。 


new faculty, and the jubilation reached its climax when kant and such a man in the 
same time the spirit of the surely and the such the such 

as a man is the sunligh and subject the present to the superiority of the special 
pain the most man and strange the subjection of the 

special conscience the special and nature and such men the subjection of the 
special men, the most surely the subjection of the special 

intellect of the subjection of the same things and 


temperature=0.5 的 结果 如 下 所 示 。 


new faculty, and the jubilation reached its climax when kant in the eterned and such 
man as it's also become himself the condition of the 

experience of off the basis the superiory and the special morty of the strength, in 
the langus, as which the same time life and "even who 

discless the mankind, with a subject and fact all you have to be the stand 

andq lave no comes a troveration of the man andq surely the 

conscience the superiority, and when one must be w 


temperature=1.0 的 结果 如 下 所 示 。 


new faculty, and the jubilation reached its climax when kant, as a 
periliting of manner to all definites and transpects it it so 

hicable and ont him artiar resull 

too such as if ever the proping to makes as cnecience. to been juden, 
all every could coldiciousnike hother aw passife, the plies like 

which might thiod was account, indifferent germin, that everythery 
certain destrution, intellect into the deteriorablen origin of moralian, 
and a lessority Oo 


第 60 轮 时 ， 模 型 已 几乎 完全 收敛 ,文本 看 起 来 更 加 连贯 。 此 时 temperature=0.2 的 结果 
如 下 所 示 。 


cheerfulness, friendliness andq kindness of a heart are the sense of the 
spirit is a man with the sense of the sense of the world of the 
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self-end and self-concerning the subjection of the strengthorixes--the 
subjection of the subjection of the subjection of the 

self-concerning the feelings in the superiority in the subjection of the 
subjection of the spirit isn't to be a man of the sense of the 
subjection and said to the strength of the sense of the 


temperature=0.5 的 结果 如 下 所 示 。 


cheerfulness, friendliness and kindness of a heart are the part of the soul 
who have been the art of the philosophers, and which the one 

won't say, which is it the higher the and with religion of the frences. 

the life of the spirit among the most continuess of the 

strengther of the sense the conscience of men of precisely before enough 
presumption, and can mankind, and something the conceptions, the 

subjection of the sense andq suffering and the 


temperature=1.0 的 结果 如 下 所 示 。 


cheerfulness, friendliness and kindness of a heart are spiritual by the 
ciuture for the 

entalled is, he astraged, or errors to our you idstood--and it needs, 
to think by spars to whole the amvives of the newoatly, prefectly 
raals! it was 

name, for example but voludd atu-especity"--or rank onee, or even all 
"solett increessic of the world and 

implussional tragedy experience, transf, or insiderar,--must hast 

if desires of the strubction is be stronges 


可 见 ， 较 小 的 温度 值 会 得 到 极端 重复 和 可 预测 的 文本 ,但 局 部 结构 是 非常 真实 的 ， 特 别 是 
所 有 单词 都 是 真正 的 英文 单词 ( 单词 就 是 字符 的 局 部 模式 )。 随 着 温度 值 越 来 越 大 ， 生 成 的 文本 
也 变 得 更 有 趣 .更 出 人 意料 ,甚至 更 有 创造 性 , 它 有 时 会 创造 出 全 新 的 单词 , 听 起 来 有 几 分 可 信 ( 比 
如 eterned 和 troveration )。 对 于 较 大 的 温度 值 ， 局 部 模式 开始 分 解 ， 大 部 分 单词 看 起 来 像 是 半 随 
机 的 字符 串 。 毫 无 疑问 ， 在 这 个 特定 的 设置 下 ，0.5 的 温度 值 生成 的 文本 最 为 有 趣 。 一 定 要 尝试 
多 种 采样 策略 ! 在 学 到 的 结构 与 随机 性 之 间 ， 巧 妙 的 平衡 能 够 让 生成 的 序列 非常 有 趣 。 

注意 ， 利 用 更 多 的 数据 训练 一 个 更 大 的 模型 ， 并 且 训 练 时 间 更 长 ， 生 成 的 样本 会 比 上 面 的 
结果 看 起 来 更 连贯 、 更 真实 。 但 是 , 不 要 期 待 能 够 生成 任何 有 意义 的 文本 , 除非 是 很 偶然 的 情况 。 
你 所 做 的 只 是 从 一 个 统计 模型 中 对 数据 进行 采样 ， 这 个 模型 是 关于 字符 先后 顺序 的 模型 。 语 言 
是 一 种 信息 沟通 渠道 ， 信 息 的 内 容 与 信息 编码 的 统计 结构 是 有 区 别 的 。 为 了 展示 这 种 区 别 ， 我 
们 来 看 一 个 思想 实验 : 如 果 人 类 语言 能 够 更 好 地 压缩 通信 ， 就 像 计 算 机 对 大 部 分 数字 通信 所 做 
的 那样 ， 那 么 会 发 生 什么 ? 语言 仍然 很 有 意义 ,但 不 会 具有 任何 内 在 的 统计 结构 ， 所 以 不 可 能 
像 刚 才 那 样 学 习 一 个 语言 模型 。 



















































































8.1.5 小 结 


口 我 们 可 以 生成 离散 的 序列 数据 ， 其 方法 是 : 给 定 前 面 的 标记 ， 训 练 一 个 模型 来 预测 接 下 
来 的 一 个 或 多 个 标记 。 
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口 对 于 文本 来 说 ， 这 种 模型 叫 作 语言 模型 。 它 可 以 是 单词 级 的 ， 也 可 以 是 字符 级 的 。 

口 对 下 一 个 标记 进行 采样 ， 需 要 在 坚持 模型 的 判断 与 引入 随机 性 之 间 寻 找平 衡 。 

口 处 理 这 个 问题 的 一 种 方法 是 使 用 softmax 温度 。 一 定 要 尝试 多 种 不 同 的 温度 ， 以 找到 合 
适 的 那 一 个 。 





8.2 DeepDream 


DeepDream 是 一 种 艺术 性 的 图 像 修改 技术 , 它 用 到 了 卷 积 神经 网 络 学 到 的 表示 。DeepDream 
由 Google 于 2015 年 夏天 首次 发 布 ， 使 用 Caffe 深度 学 习 库 编写 实现 ( 当时 比 TensorFlow 的 首 
次 公开 发 布 要 早 几 个 月 )。? 它 很 快 在 网 上 引起 了 履 动 ， 这 要 归功 于 它 所 生成 的 迷 幻 图 像 ( 比如 
图 8-3 )， 图 像 中 充满 了 算法 生成 的 错觉 式 伪 影 、 乌 羽毛 和 狗 眼 睛 。 这 是 DeepDream 卷 积 神经 网 
络 在 InageNet 上 训练 的 副作用 ， 因 为 ImageNet 中 狗 和 鸟 的 样本 特别 多 。 











图 8-3 DeepDream 输出 图 像 示 例 

DeepDream 算法 与 第 5 章 介 绍 的 卷 积 神经 网 络 过 滤器 可 视 化 技术 几乎 相同 ， 都 是 反 向 运行 
一 个 卷 积 神经 网 络 : 对 卷 积 神经 网 络 的 输入 做 梯度 上 升 ， 以 便 将 卷 积 神经 网 络 靠 顶部 的 某 一 层 
的 某 个 过 滤器 激活 最 大 化 。DeepDream 使 用 了 相同 的 想法 ,但 有 以 下 这 几 个 简单 的 区 别 。 





GD 参见 Alexander Mordvintsev 、Christopher Olah 和 Mike Tyka 于 2015 年 7 月 1 日 在 Google Research Blog 上 发 表 的 
文章 “DeepDream: a code example for visualizing neural networks” 。 
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口 使 用 DeepDream， 我 们 尝试 将 所 有 层 的 激活 最 大 化 ， 而 不 是 将 某 一 层 的 激活 最 大 化 ， 
此 需要 同时 将 大 量 特征 的 可 视 化 混合 在 一 起 。 

口 不 是 从 空白 的 、 略 微 带 有 噪声 的 输入 开始 ， 而 是 从 现 有 的 图 像 开 始 ， 因 此 所 产生 的 效果 
能 够 抓 住 已 经 存在 的 视觉 模式 ， 并 以 某 种 艺术 性 的 方式 将 图 像 元 素 扭 曲 。 

口 输入 图 像 是 在 不 同 的 尺度 上 [ 叫 作 八 度 (octave ) ] 进行 处 理 的 ,这 可 以 提高 可 视 化 的 质量 。 

我 们 来 生成 一 些 DeepDream 图 像 。 














8.2.1 用 Keras 实现 DeepDream 


我 们 将 从 一 个 在 ImageNet 上 预 训练 的 卷 积 神经 网 络 开 始 。Keras 中 有 许多 这 样 的 卷 积 神经 
网 络 : VGG16、VGG19、Xception 、ResNet50 等 。 我 们 可 以 用 其 中 任何 一 个 来 实现 DeepDream， 
但 我 们 选择 的 卷 积 神经 网 络 会 影响 可 视 化 的 效果 ， 因 为 不 同 的 卷 积 神经 网 络 架 构 会 学 到 不 同 的 
特征 。 最 初 发 布 的 DeepDream 中 使 用 的 卷 积 神经 网 络 是 一 个 Inception 模型 ， 在 实践 中 ， 人 们 已 
经 知道 Inception 能 够 生成 漂亮 的 DeepDream 图 像 ， 所 以 我 们 将 使 用 Keras 内 置 的 Inception V3 
模型 。 


代码 清单 8-8 加载 预 训练 的 Inception V3 模型 


from keras.applications import inception v3 我 们 不 需要 训练 模型 ， 所 以 这 个 命令 





from keras import backend as K 


会 禁用 所 有 与 训练 有 关 的 操作 


K.set_learning phase(0) 4 





model = inception v3.InceptionV3 (weights='imagenet', 
include_ top=False) 


构建 不 包括 全 连接 层 的 Inception V3 
网 络 。 使 用 预 训练 的 ImageNet 权重 
来 加 载 模型 





接 下 来 ， 我 们 要 计算 损失 (loss )， 即 在 梯度 上 升 过 程 中 需要 最 大 化 的 量 。 在 第 5 章 的 过 滤 
带 可 视 化 中 ， 我 们 试图 将 某 一 层 的 某 个 过 滤 带 的 值 最 大 化 。 这 里 ,我 们 要 将 多 个 层 的 所 有 过 渡 
顺 的 激活 同时 最 大 化 。 具 体 来 说 ， 就 是 对 一 组 靠近 顶部 的 层 激 活 的 2 范 数 进行 加 权 求 和 ， 然 
后 将 其 最 大 化 。 选 择 哪 些 层 ( 以 及 它们 对 最 终 损 失 的 贡献 ) 对 生成 的 可 视 化 结果 具有 很 大 影响 ， 
所 以 我 们 希望 让 这 些 参数 变 得 易于 配置 。 更 靠近 底部 的 层 生 成 的 是 几何 图 案 ， 而 更 靠近 项 部 的 
层 生 成 的 则 是 从 中 能 够 看 出 某 些 ImageNet 类 别 〈 比如 鸟 或 狗 ) 的 图 案 。 我 们 将 随意 选择 4 层 的 
配置 ， 但 你 以 后 一 定 要 探索 多 个 不 同 的 配置 。 


代码 清单 8-9 设置 DeepDream 配置 


layer_contripbutions = { 





'mixed2': 0.2, 这 个 字典 将 层 的 名 称 映射 为 一 个 系数 ， 这 个 系数 定量 
'mixed3': 3., 表示 该 层 激活 对 你 要 最 大 化 的 损失 的 贡献 大 小 。 注 意 ， 
‘mixed4': 


1 A 层 的 名 称 硬 编码 在 内 置 的 Inception V3 应 用 中 。 可 以 
ee 使 用 model.summary() 列 出 所 有 层 的 名 称 
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接 下 来 ， 我 们 来 定义 一 个 包含 损失 的 张 量 ， 损 失 就 是 代码 清单 8-9 中 层 激 活 的 L2 范 数 的 加 
权 求 和 。 


代码 清单 8-10 ”定义 需要 最 大 化 的 损失 


创建 一 个 字典 ， 将 层 的 名 称 
映射 为 层 的 实例 





layer_dict = dict([(layer.name, layer) for layer in model.layers]) 


loss = K.variable(0.) < 一 在 定义 损失 时 将 层 的 贡献 添加 到 这 个 标量 变量 中 
for layer name in layer_ contributions: 

coeff = layer_contributions[layer_name] 

activation = layer_dict[layer_name] .output < 一 获取 层 的 输出 


scaling = K.prod(K.cast (K.shape(activation), 'float32')) 
loss += coeff * K.sum(K.square(activation[:, 2: -2, 2: -2, :])) / scaling 


将 该 层 特征 的 L2 范 数 添 加 到 loss 中 。 
为 了 避免 出 现 边界 伪 影 ， 损 失 中 仅 包 
含 非 边 界 的 像素 

下 面 来 设置 梯度 上 升 过 程 。 





代码 清单 8-11 梯度 上 升 过 程 
dream = model.input ”< 一 这 个 张 量 用 于 保存 生成 的 图 像 ， 即 梦境 图 像 


grads = K.gradients(loss，dream) [0] <4 计算 损失 相对 于 梦境 图 像 的 梯度 


grads /= K.maximum(K.mean(K.abs (grads))，1e-7) <4 一 将 梯度 标准 化 (重要 技巧 ) 





outputes = [loss, yrads)] 
fetch_ loss_and grads = K.function([dream], outputs) 给 定 一 张 输出 图 像 ， 设 置 
一 个 Keras 函数 来 获取 损 
def eval_loss_and_ grads (x): 直 和 术 
0 
outs = fetch_ loss_and grads( [x]) 失 值 和 梯度 什 
loss_value = outs[0] 
grad_values = outs[1] 
return loss_value, grad values 
def gradient_ ascent (x, iterations, step, max_ loss=None): 
for i in range(iterations): 
loss_value, grad values = eval_loss_angd grads (x) 
if max loss is not None and loss_value > max_ loss: 这 个 函数 运行 ierations 
break 次 梯度 上 逢 
Brint( Ts.Loss, Value at'y TT, » loss value) 
X += step * grad values 
return xX 


最 后 就 是 实际 的 DeepDream 算法 。 首 先 ， 我 们 来 定义 一 个 列表 ， 里面 包含 的 是 处 理 图 像 的 
尺度 (也 叫 八 度 )。 每 个 连续 的 尺度 都 是 前 一 个 的 1.4 倍 (放大 40% )， 即 首先 处 理 小 图 像 ， 然 
后 逐渐 增 大 图 像 尺 寸 ( 见 图 8-4 )。 














第 1 个 八 度 必 J 
第 2 个 八 度 Y 
第 3 个 八 度 


图 8-4 DeepDream 过 程 : 空间 处 理 尺 度 的 连续 放大 ( 八 度 ) 与 放大 时 重新 注入 细节 


对 于 每 个 连续 的 尺度 ， 从 最 小 到 最 大 ， 我 们 都 需要 在 当前 尺度 运行 梯度 上 升 ， 以 便 将 之 前 
定义 的 损失 最 大 化 。 每 次 运行 完 梯度 上 升 之 后 ， 将 得 到 的 图 像 放大 40%。 

在 每 次 连续 的 放大 之 后 ( 图 像 会 变 得 模糊 或 像素 化 )， 为 避免 丢失 大 量 图 像 细 节 ， 我 们 可 
以 使 用 一 个 简单 的 技巧 : 每 次 放大 之 后 ， 将 丢失 的 细节 重新 注入 到 图 像 中 。 这 种 方法 是 可 行 的 ， 
因为 我 们 知道 原始 图 像 放大 到 这 个 尺寸 应 该 是 什么 样子 。 给 定 一 个 较 小 的 图 像 尺 寸 S 和 一 个 较 
大 的 图 像 尺 寸 工 ， 你 可 以 计算 将 原始 图 像 大 小 调整 为 工 与 将 原始 图 像 大 小 调整 为 8 之 间 的 区 别 ， 
这 个 区 别 可 以 定量 描述 从 5 到 工 的 细 广 损失 。 


代码 清单 8-12 ”在 多 个 连续 尺度 上 运行 梯度 上 升 





























改变 这 些 超 参数 ， 可 以 梯度 上 升 的 步 长 
得 到 新 的 效果 运行 梯度 上 升 的 
limport numpy as np 尺度 个 数 
step = 0.01 两 个 尺度 之 间 的 
num_octave = 3 = 大 小 比例 在 每 个 尺度 上 运行 
octave_scale = 1.4 梯度 上 升 的 步 数 
iterations = 20 4 
max_loss = 10. < 一 如 果 损 失 增 大 到 大 于 10， 我 们 要 中 断 梯度 上 升 过 程 ， 以 避免 得 到 丑陋 的 伪 影 
base_image path = '...! < 一 将 这 个 变量 修改 为 你 要 使 用 的 图 像 的 路 径 


将 基础 图 像 加 载 成 一 个 Numpy 数组 


img = preprocess_image (base_image_ path) | 
(这 个 函数 在 代码 清单 8-13 中 定义 ) 


original_shape = img.shape[1:3] 


successive_shapes = [original_shapel] 
for i in range(1, num octave): 准备 一 个 由 形状 元 组 组 成 
shape = tuple([int (dim / (octave_ scale ** 1i)) 的 列表 ， 它 定义 了 运行 梯 
Fo on In original_shapel]) 度 上 升 的 不 同 尺度 


successive_shapes.append (shape) 
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| 将 形状 列表 反 转 ， 变 为 升序 


successive_shapes = successive_ shapes[::-1] 


original_img = np.copy (img) 


shrunk_original_img = resize_img(img, successive_shapes[0]) 将 图 像 Numpy 数组 的 
大 小 缩放 到 最 小 尺 十 


for shape in successive_shapes: 
print ('Processing image shape', shape) 
img = resize_img (img，shape) < 一 将 梦境 图 像 放 大 
img = gradient ascent (img, 


运行 梯度 上 升 iterations=iterations, el oii 
J ， 它 会 变 得 像素 
改变 梦境 图 像 step=step, 


max_loss=max_ loss) 





upscaled shrunk_ original img = resize_ img (shrunk_ original_ img, shape) 
i> Same_size original = resize _ img (original_img, shape) 








lost_detail = same_ size original - upscaled shrunk original_img 


img += lost_detail 
shrunk_original img = resize img(original img, shape) 
save_img (img, fname='dream at_scale_' + str(shape) + '.png') 








注意 ， 上 述 代 码 使 用 了 下 面 这 些 简单 的 Numpy 辅助 函数 ， 其 功能 从 名 称 中 就 可 以 看 出 来 。 


它们 都 需要 安装 SciPy。 
代码 清单 8-13 ”辅助 函数 


import scipy 
from keras.preprocessing import image 


def resize_img (img, size): 
img = np.copy (img) 
factors = (1; 
float (size[0]) / img.shape[1]， 
float (size[1]) / img.shape[2]， 
1) 
return scipy.ndimage.zoom(img, factors, order=1) 


def save_img (img, fname): 
pil_img = deprocess_image (np.copy (img)) 
scipy.misc.imsave (fname, pil_ img) 


通用 函数 ， 用 于 打开 图 像 、 改 变 图 像 大 小 以 及 将 图 像 
格式 转换 为 Inception V3 模型 能 够 处 理 的 张 量 


img = image.load img (image_path 
img = image.img to_ array (img) 

img = np.expand dims (img, axis=0) 
img = inception v3.preprocess_input (img) 
return img 


def preprocess_image (image_path): | 
) 





将 丢失 的 细节 重新 注入 
save_img (img, fname='final_dream.png') 到 梦境 图 像 中 
在 这 个 尺寸 上 计算 原始 二 者 的 差别 就 是 在 放大 
图 像 的 高 质量 版 本 过 程 中 丢失 的 细节 
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def qeprocess_image (x) : < 一 通用 函数 ， 将 一 个 张 量 转 换 为 有 效 图 像 
if K.image data format() == 'channe1s_first': 
X = XxX.reshape((3, x.shape[l2], x.shape[3])) 
x = x.transpose((1, 2, 0)) 


else: 

X = x.reshape((x.shape[l1], x.shape[2], 3)) 
多 = 到 J 
x += 0.5 所 做 的 预 处 理 进 行 反 向 操作 
pi 
三 IDs CLiB(X; 0, 255) .aetype( uinte') 
return xX 


注意 因为 原始 Inception V3 网 络 训练 识别 尺寸 为 299 x 299 的 图 像 中 的 概念 ， 而 上 述 过 程 中 将 
图 像 尺寸 减 小 很 多 ， 所 以 DeepDream 实现 在 尺寸 介 于 300 x 300 和 400 x400 之 间 的 图 像 
上 能 够 得 到 更 好 的 结果 。 但 不 管 怎样 ， 你 都 可 以 在 任何 尺寸 和 任何 比例 的 图 像 上 运行 同 
样 的 代码 。 


最 开始 的 照片 是 在 旧金山 湾 和 Google 校园 之 间 的 小 山上 拍摄 的 ， 我 们 从 这 张 照片 得 到 的 
DeepDream 图 像 如 图 8-5 所 示 。 


二 








图 8-5 在 示例 图 像 上 运行 DeepDream 代码 


我 们 强烈 建议 你 调节 在 损失 中 使 用 的 层 ， 从 而 探索 能 够 得 到 什么 样 的 结果 。 网 络 中 更 靠近 
底部 的 层 包 含 更 局 部 、 不 太 抽 象 的 表示 ， 得 到 的 梦境 网 案 看 起 来 更 像 是 几何 形状 。 更 靠近 项 前 
的 层 能 够 得 到 更 容易 识别 的 视觉 图 案 ， 这 些 图 案 都 是 基于 ImageNet 中 最 常见 的 对 象 ， 比 如 狗 
眼睛 、 乌 羽毛 等 。 你 可 以 随机 生成 layer_contributions 字典 中 的 参数 ， 从 而 快速 探索 多 种 不 
同 的 层 组 合 。 对 于 一 张 自 制 美 味 糕 点 的 图 像 ， 图 8-6 给 出 了 利用 不 同 的 层 配置 所 得 到 的 一 系列 
结果 。 
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8-6 在 一 张 示 例 图 像 上 尝试 一 系列 DeepDream 配置 


8.2.2 小结 


口 DeepDream 的 过 程 是 反 向 运行 一 个 卷 积 神经 网 络 ， 基 于 网 络 学 到 的 表示 来 生成 输入 。 

口 得 到 的 结果 是 很 有 趣 的 ， 有 些 类 似 于 通过 迷 幻 剂 扰乱 视觉 皮层 而 诱发 的 视觉 伪 影 。 

口 注意 ,这 个 过 程 并 不 局 限于 图 像 模 型 ,甚至 并 不 局 限于 卷 积 神经 网 络 。 它 可 以 应 用 于 语音 、 
音乐 等 更 多 内 容 。 


8.3 神经 风格 迁移 


除 DeepDream 之 外 ， 深 度 学 习 驱 动 图 像 修 改 的 男 一 项 重大 进展 是 神经 风格 迁移 ( neural 
style transfer )， 它 由 Leon Gatys 等 人 于 2015 年 夏天 提出 。? 自首 次 提出 以 来 ， 神 经 风格 迁移 算 
法 已 经 做 了 许多 改进 ， 并 衍生 出 许多 变 体 ， 而 且 还 成 功 转化 成 许多 智能 手机 图 片 应 用 。 为 了 简 























@ 参见 Leon A. Gatys 、Alexander S. Ecker 和 Matthias Bethge 于 2015 年 发 表 的 文章 “Aneural algorithm of artistic style”。 
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单 起 见 ， 本 方 将 重点 介绍 原始 论文 中 描述 的 方法 。 
神经 风格 迁移 是 指 将 参考 图 像 的 风格 应 用 于 目标 图 像 ， 同 时 保留 目标 图 像 的 内 容 。 图 8-7 
给 出 了 一 个 示例 。 





目标 内 容 参考 风格 

















图 8-7 一 个 风格 迁移 的 示例 


在 当前 语 境 下 ， 风 格 (style ) 是 指 图 像 中 不 同 空 间 尺 度 的 纹理 、 颜 色 和 视觉 图 案 ， 内 容 
( content ) 是 指 图 像 的 高 级 宏观 结构 。 举 个 例子 ， 在 图 8-7 中 ( 用 到 的 参考 图 像 是 文 森 特 : 焚 高 
的 《星夜 》， 蓝 黄色 圆 形 笔划 被 看 作风 格 ， 而 Tiibingen ( 图 宾 根 ) 照片 中 的 建筑 则 被 看 作 内 容 。 

风格 迁移 这 一 想法 与 纹理 生成 的 想法 密切 相关 ， 在 2015 年 开发 出 神经 风格 迁移 之 前 ， 这 一 
想法 就 已 经 在 图 像 处 理 领域 有 着 悠久 的 历史 。 但 事实 证 明 ， 与 之 前 经 典 的 计算 机 视觉 技术 实现 
相 比 ， 基 于 深度 学 习 的 风格 迁移 实现 得 到 的 结果 是 无 与 伦比 的 ， 并 且 还 在 计算 机 视觉 的 创造 性 
应 用 中 引发 了 惊人 的 复兴 。 

实现 风格 迁移 背后 的 关键 概念 与 所 有 深度 学 习 算 法 的 核心 思想 是 一 样 的 : 定义 一 个 损失 函 
数 来 指定 想 要 实现 的 目标 ， 然 后 将 这 个 损失 最 小 化 。 你 知道 想 要 实现 的 目标 是 什么 ， 就 是 保存 
原始 图 像 的 内 容 ， 同 时 采用 参考 图 像 的 风格 。 如 果 我 们 能 够 在 数学 上 给 出 内 容 和 风格 的 定义 ， 
那么 就 有 一 个 适当 的 损失 函数 (如 下 所 示 )， 我 们 将 对 其 进行 最 小 化 。 


loss = qistance(Style(zeference_image) - style(generated image)) + 
distance(content (original_image) - content (generated_ image)) 


这 里 的 distance 是 一 个 范 数 函 数 ， 比 如 12 范 数 ; content 是 一 个 函数 ， 输 入 一 张 图 
像 并 计算 出 其 内 容 的 表示 ; style 是 一 个 函数 ， 输 入 一 张 图 像 ， 并 计算 出 其 风格 的 表示 。 将 
这 个 损失 最 小 化 ， 会 使 得 style (generated_image) 接近 于 style (reference_image)、 
content (generated_image) 接近 于 content (generated_image)， 从 而 实现 我 们 定义 的 
风格 迁移 。 

Gatys 等 人 发 现 了 一 个 很 重要 的 观察 结果 ， 就 是 深度 卷 积 神经 网 络 能 够 从 数学 上 定义 style 
和 content 两 个 函数 。 我 们 来 看 一 下 如 何 定义 。 


8.3.1 内 容 损 失 


如 你 所 知 ， 网 络 更 靠 底部 的 层 激 活 包 含 关于 图 像 的 局 部 信息 ， 而 更 靠近 顶部 的 层 则 包含 更 
加 全 局 、 更 加 抽象 的 信息 。 卷 积 神经 网 络 不 同 层 的 激活 用 男 一 种 方式 提供 了 图 像 内 容 在 不 同 空 
间 尺 度 上 的 分 解 。 因 此 ， 图 像 的 内 容 是 更 加 全 局 和 抽象 的 ， 我 们 认为 它 能 够 被 卷 积 神经 网 络 更 
徘 顶 部 的 层 的 表示 所 捕捉 到 。 
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因此 ， 内 容 损失 的 一 个 很 好 的 候选 者 就 是 两 个 激活 之 间 的 L2 范 数 ， 一 个 激活 是 预 训练 的 卷 
积 神经 网 络 更 徘 项 部 的 某 层 在 目标 图 像 上 计算 得 到 的 激活 ， 男 一 个 激活 是 同一 层 在 生成 图 像 上 
计算 得 到 的 激活 。 这 可 以 保证 ， 在 更 靠 顶 部 的 层 看 来 ， 生 成 图 像 与 原始 目标 图 像 看 起 来 很 相似 。 
假设 卷 积 神经 网 络 更 靠 顶部 的 层 看 到 的 就 是 输入 图 像 的 内 容 ， 那 么 这 种 方法 可 以 保存 图 像 内 容 。 


8.3.2 ”风格 损失 


内 容 损 失 只 使 用 了 一 个 更 靠 顶部 的 层 ， 但 Gatys 等 人 定义 的 风格 损失 则 使 用 了 卷 积 神经 网 
络 的 多 个 层 。 我 们 想 要 捉 到 卷 积 神经 网 络 在 风格 参考 图 像 的 所 有 空间 尺度 上 提取 的 外 观 ， 而 不 
仅仅 是 在 单一 尺度 上 。 对 于 风格 损失 ，Gatys 等 人 使 用 了 层 激活 的 格拉 姆 矩阵 (Gram matrix )， 
即 某 一 层 特 征 图 的 内 积 。 这 个 内 积 可 以 被 理解 成 表示 该 层 特征 之 间 相 互 关 系 的 映射 。 这 些 特征 
相互 关系 抓 住 了 在 特定 空间 尺度 下 模式 的 统计 规律 ， 从 经 验 上 来 看 ， 它 对 应 于 这 个 尺度 上 找到 
的 纹理 的 外 观 。 

因此 ， 风 格 损失 的 目的 是 在 风格 参考 图 像 与 生成 图 像 之 间 ， 在 不 同 的 层 激活 内 保存 相似 的 
内 部 相互 关系 。 反 过 来 ， 这 保证 了 在 风格 参考 图 像 与 生成 图 像 之 间 ， 不 同 空间 尺度 找到 的 纹理 
看 起 来 都 很 相似 。 

简 而 言 之 ， 你 可 以 使 用 预 训练 的 卷 积 神 经 网 络 来 定义 一 个 具有 以 下 特点 的 损失 。 

口 在 目标 内 容 图 像 和 生成 图 像 之 间 保 持 相 似 的 较 高 层 激活 ， 从 而 能 够 保留 内 容 。 卷 积 神经 

网 络 应 该 能 够 “看 到 ”目标 图 像 和 生成 图 像 包 含 相同 的 内 容 。 

口 在 较 低 层 和 较 高 层 的 激活 中 保持 类 似 的 相互 关系 〈correlation )， 从 而 能 够 保留 风格 。 特 

征 相 互 关 系 捕捉 到 的 是 纹理 ( texture )， 生 成 图 像 和 风格 参考 图 像 在 不 同 的 空间 尺度 上 应 
该 具有 相同 的 纹理 。 

接 下 来 ， 我 们 来 用 Keras 实现 2015 年 的 原始 神经 风格 迁移 算法 。 你 将 会 看 到 ， 它 与 上 一 节 
介绍 的 DeepDream 算法 实现 有 许多 相似 之 处 。 


8.3.3 用 Keras 实现 神经 风格 迁移 


神经 风格 迁移 可 以 用 任何 预 训练 卷 积 神经 网 络 来 实现 。 我 们 这 里 将 使 用 Gatys 等 人 所 使 用 
的 VGG19 网 络 。VGG19 是 第 5 章 介绍 的 VGG16 网 络 的 简单 变 体 ， 增 加 了 三 个 卷 积 层 。 

神经 风格 迁移 的 一 般 过 程 如 下 。 

(1) 创建 一 个 网 络 ， 它 能 够 同时 计算 风格 参考 图 像 、 目 标 图 像 和 生成 图 像 的 VGG19 层 激活 。 

(2) 使 用 这 三 张 图 像 上 计算 的 层 激活 来 定义 之 前 所 述 的 损失 函数 ， 为 了 实现 风格 迁移 ， 需 要 

将 这 个 损失 函数 最 小 化 。 

(3) 设置 梯度 下 降 过 程 来 将 这 个 损失 函数 最 小 化 。 

我 们 首先 来 定义 风格 参考 图 像 和 目标 图 像 的 路 径 。 为 了 确保 处 理 后 的 图 像 具 有 相似 的 尺寸 
(如 果 图 像 尺 十 差异 很 大 ， 会 使 得 风格 迁移 变 得 更 加 困难 )， 稍 后 需要 将 所 有 图 像 的 高 度 调 整 为 
400 像素 。 
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代码 清单 8-14 ”定义 初始 变量 


from keras.preprocessing.image import load_ img, img_to_array 


target_image_path = 'img/portrait.jpg' < 一 想 要 变换 的 图 像 的 路 径 
style_reference_image path = 'img/transfer_style_reference.jpg' < 一 风格 图 像 的 路 径 


width, height = load_img(target_image_path) .size 
img_height = 400 生成 图 像 的 尺寸 
img_width = int (width * img_ height / height) 


我 们 需要 一 些 辅助 函数 ， 用 于 对 进出 VGG19 卷 积 神经 网 络 的 图 像 进行 加 载 、 预 处 理 和 后 
处 理 。 





代码 清单 8-15 ”辅助 了 印 数 


import numpy as np 
from keras.applications import vgg19 


def preprocess_image (image path): 
img = load img (image path, target_ size=(img _ height, img_width)) 
img = img_to_array (img) 
img = np.expangd dims (img, axis=0) 
img = vgg19 .preprocess_input (img) 
return img 


def deprocess_image (x): 





| 二 1 0 vgg19 .preprocess_input 的 作用 是 减 去 ImageNet 的 平均 像素 值 ， 
x[ , . 。 2] 的 123 68 使 其 中 心 为 0。 这 里 相当 于 vgg19 .preprocess_input 的 逆 操 作 
这 ， 

x = np.clip(x，0，255) .astype('uint8') 将 图 像 由 BGR 格式 转换 为 RGB 格式 。 这 也 是 
return x vgg19 .preprocess_input 逆 操 作 的 一 部 分 


下 面 构建 VGG19 网 络 。 它 接收 三 张 图 像 的 批量 作为 输入 ， 三 张 图 像 分 别 是 风格 参考 图 像 、 
目标 图 像 和 一 个 用 于 保存 生成 图 像 的 占 位 符 。 占 位 符 是 一 个 符号 张 量 ， 它 的 值 由 外 部 Numpy 张 
量 提供 。 风 格 参 考 图 像 和 目标 图 像 都 是 不 变 的 ， 因 此 使 用 K.constant 来 定义 , 但 生成 图 像 的 
占 位 符 所 包含 的 值 会 随 着 时 间 而 改变 。 








代码 清单 8-16 ”加载 预 训练 的 VGG19 网 络 ， 并 将 其 应 用 于 三 张 图 像 
from keras import backend as K 这 个 占 位 符 用 于 
保存 生成 图 像 


target_image = K.constant (preprocess_image (target_image patnh)) 
style_reference_ image = K.constant (preprocess_image (style_ reference_ image path)) 
combination image = K.placeholder((1, img _ height, img _ width, 3)) 





input_tensor = K.concatenate([target_image, 
style_reference_image, 将 三 张 图 像 合 并 为 一 个 批量 
combination image], axis=0) 


model = vgg19.VGG19 (input_ tensor=input_tensor, 利用 三 张 图 像 组 成 的 批量 作为 输入 
weights='imagenet', 来 构建 VGG19 网 络 。 加 载 模型 将 


include top=False) 和 
print ('Model loaded.') 使 用 预 训练 的 ImageNet 权重 
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我 们 来 定义 内 容 损失 ， 它 要 保证 目标 图 像 和 生成 图 像 在 VGG19 卷 积 神经 网 络 的 顶层 具有 相 
似 的 结果 。 





代码 清单 8-17 “内容 损失 
def content_loss(base, combination): 
return K.sum(K.square (combination - base)) 





接 下 来 是 风格 损失 。 它 使 用 一 个 辅助 函数 来 计算 输入 和 矩 阵 的 格拉 姆 算 阵 ， 即 原始 特征 矩阵 
中 相互 关系 的 映射 。 





代码 清单 8-18 ”风格 损失 
def gram matrix (Xx): 
features = K.batch flatten(K.permute dimensions (x, (2, 0, 1)) 
gram = K.dot (features, K.transpose(features)) 
return gram 


def style_loss(style, combination): 
S = gram matrix(style) 
C = gram matrix(combination) 
channels = 3 
size = img_height * img_ width 
return K.sum(K.sdquare(S - C)) / (4,. * (channels ** 2) * (gizeé xx 2)) 


除了 这 两 个 损失 分 量 ， 我 们 还 要 添加 第 三 个 一 一 总 变 差 损失 (total variation loss )， 它 对 生成 
的 组 合 图 像 的 像素 进行 操作 。 它 促使 生成 图 像 具 有 空间 连续 性 ， 从 而 避免 结果 过 度 像素 化 。 你 
可 以 将 其 理解 为 正则 化 损失 。 


代码 清单 8-19 ”总 变 差 损失 





def total_variation loss (x): 
a = K.squarel( 


x[:, :img height - 1, :img_ width - 1, :] - 
[yy Lar Slng widtl = 1; 1]) 

b = K.squarel 
x[:, :img height - 1, :img width - 1, :] - 
x[:, :img_ _ height - 1, 1:, :]) 


return K.sum(K.pow(la + b, 1.25)) 


我 们 需要 最 小 化 的 损失 是 这 三 项 损失 的 加 权 平 均 。 为 了 计算 内 容 损 失 ， 我 们 只 使 用 一 个 靠 
顶部 的 屋 ， 即 block5_conv2 层 ; 而 对 于 风格 损失 ， 我 们 需要 使 用 一 系列 层 ， 既 包括 顶层 也 包 
括 底层 。 最 后 还 需要 添加 总 变 差 损失 。 

根据 所 使 用 的 风格 参考 图 像 和 内 容 图 像 ， 很 可 能 还 需要 调节 content_weight 系数 (内容 
损失 对 总 损失 的 贡献 比例 )， 更 大 的 content_weight 表示 目标 内 容 更 容易 在 生成 图 像 中 被 识 
别 出 来 。 





代码 清单 8-20 “定义 需要 最 小 化 的 最 终 损失 





| 


outputs_dict = dict([(layer.name, layer.output) for layer in model.layers]) 
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content_layer = 'block5_conv2' < 一 用 于 内 容 损失 的 层 
style_layers = ['blockl_ convil', 
'block2_convil', 
'block3_convil', 用 于 风格 损失 的 层 
'block4_convi' 
"BloOcKk5 corvl' 
total_ variation weight = le-4 


style weight = 1. 损失 分 量 的 加 权 平均 所 使 用 的 权重 








content weight Qs025 

loss = K.variable(0.) 4 、 下 
layer_features = outputs_dict[content_layer] 在 定义 损失 时 将 所 有 分 量 
target_image_features = layer_ features[0, :, :, :] 添加 到 这 个 标量 变量 中 





combination features = layer_ features[2, :, :, :] 

loss += content weight * content_loss(target_image_ features, 
combination_ features) 

for layer_ name in style_ layers: < 





layer_features = outputs_dict[layer_ name] 添加 每 个 目标 层 的 
style_reference_features = layer_features[1, :, :, :] 风格 损失 分 量 





combination features = layer_ features[2, :, :, :] 
sl = style_ loss(style reference features, combination features) 
loss += (style weight / len(style layers)) * sl 


loss += total_variation weight * total variation loss(combination image) | 
添加 总 变 差 损 失 


最 后 需要 设置 梯度 下 降 过 程 。 在 Gatys 等 人 最 初 的 论文 中 ,使 用 L-BFGS 算法 进行 最 优化 ， 


所 以 我 们 这 里 也 将 使 用 这 种 方法 。 这 是 本 例 与 8.2 节 DeepDream 例子 的 主要 区 别 。L-BFGS 算 
法 内 置 于 SciPy 中 ,但 SciPy 实现 有 两 个 小 小 的 限制 。 





口 它 需要 将 损失 函数 值 和 梯度 值 作为 两 个 单独 的 函数 传人 。 
口 它 只 能 应 用 于 展 平 的 向 量 ， 而 我 们 的 数据 是 三 维 图 像 数 组 。 
分 别 计算 损失 函数 值 和 梯度 值 是 很 低 效 的 ， 因 为 这 么 做 会 导致 二 者 之 间 大 量 的 宛 余 计 算 。 


这 一 过 程 需 要 的 时 间 几 乎 是 联合 计算 二 者 所 需 时间 的 2 倍 。 为 了 避免 这 种 情况 ， 我 们 将 创建 一 
个 名 为 Evaluator 的 Python 类 ， 它 可 以 同时 计算 损失 值 和 梯度 值 ， 在 第 一 次 调用 时 会 返回 损 
失 值 ， 同 时 缓存 梯度 值 用 于 下 一 次 调用 。 





代码 清单 8-21 设置 梯度 下 降 过 程 





grads = K.gradients(loss，combination_image) [0] < 一 获取 损失 相对 于 生成 图 像 的 梯度 


fetch_ loss_and grads = K.function([combination image], [loss, grads]) 
用 于 获取 当前 损失 值 和 
class Evaluator (object): 当前 梯度 值 的 函数 
0 这 个 类 将 fetch loss_ and grads 包 





self.loss_value = None 
self.grads_values = None 


装 起 来 ， 让 你 可 以 利用 两 个 单独 的 方法 
调用 来 获取 损失 和 梯度 ， 这 是 我 们 要 使 
用 的 SciPy 优化 器 所 要 求 的 
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def loss(self, x): 
assert self.loss_value is None 
疏 x.reshape((1, img_ height, img_width, 3)) 
outs fetch_loss_and_ grads ([x]) 
loss_value outs[0] 
grad_values 
self.loss_value loss_value 
self.grad values grad_values 
return self.loss_value 





def grads (self, x): 
assert self.loss_value is not None 
grad_values = np.copy (self.grad_ values) 
self.loss_value = None 
self.grad_values = None 
return grad values 
evaluator = Evaluator () 


有 


最 后 ， 可 以 使 用 SciPy 的 L-BFGS 算法 来 运行 
当前 的 生成 图 像 ( 这 里 一 次 迭代 表示 20 个 梯度 上 升 步骤 )。 


代码 清单 8-22 ”风格 迁移 循环 
from scipy.optimize import fmin 1 bfgs_b 
from scipy.misc import imsave 
import time 











这 是 初始 状态 : 
result_prefix = 'my_result' 这 是 初始 状态 : 
iterations = 20 目标 图 像 
X = preprocess_image (target_image_path) 

X= RELlAattent() 
for i in range(iterations): 


print('Start of iteration', i) 
start_time time.time() 
x, min val, info fmin_ 1 _bfgs_b(evaluator .1Loss， 


XxX, 


fprime=evaluator.grads, 


maxfun=20) 
print ('Current loss value:', min val) 


img = x.copy () .reshape( (img_ height, img_widgdth, 
img = deprocess_image (img) 
fname = result prefix + '_at_iteration %d.png' 


imsave (fname, img) 

print('Image saved as', 
engd_time time.time() 
print('Iteration %d completed in %ds' 


fname) 


名 
五 





吕 
五 


outs[1].flatten().astype('float64:') 


梯度 上 升 过 程 ， 在 算法 每 一 次 迭代 时 都 保存 


将 图 像 展 平 ， 因 为 scipy .optimize. 
fmin_ 1 _bfgs_b 只 能 处 理 展 平 的 向 量 


\ 一 /一 


对 生成 图 像 的 像素 运行 
L-BFGS 最 优化 ， 以 将 神 
经 风格 损失 最 小 化 。 注 意 ， 
必须 将 计算 损失 的 函数 和 
计算 梯度 的 函数 作为 两 个 
单独 的 参数 传 入 


3) ) 


i 


保存 当前 的 生成 图 像 


(i, engd time - start_ time)) 


得 到 的 结果 如 图 8-8 所 示 。 请 记 住 ， 这 种 技术 所 实现 的 仅仅 是 一 种 形式 的 改变 图 像 纹 理 ， 


或 者 叫 纹理 迁移 。 如 果 风 格 参考 图 像 具 有 明显 的 纹理 结构 且 
高 层次 细节 就 能 够 被 识别 ， 那 么 这 种 方法 的 效果 最 好 。 它 通 
将 一 幅 首 像 的 风格 迁移 到 男 一 幅 中 。 这 种 算法 更 接近 于 经 典 


Es 








高 度 自 相似 ， 并 且 内 容 目标 不 需要 
常 无 法 实现 比较 抽象 的 迁移 ， 比 如 


的 信号 处 理 ， 而 不 是 更 接近 于 人 工 
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智能 ， 因 此 不 要 指望 它 能 实现 魔法 般 的 效果 





图 8-8 一 些 示例 结果 
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此 外 还 请 注意 ， 这 个 风格 迁移 算法 的 运行 速度 很 慢 。 但 这 种 方法 实现 的 变换 足够 简单 ， 只 
要 有 适量 的 训练 数据 ， 一 个 小 型 的 快速 前 馈 卷 积 神经 网 络 就 可 以 学 会 这 种 变换 。 因 此 ， 实 现 快 
速 风格 迁移 的 方法 是 ， 首 先 利用 这 里 介绍 的 方法 ， 花 费 大 量 的 计算 时 间 对 一 张 固定 的 风格 参考 
图 像 生成 许多 输入 一 输 出 训练 样 例 ， 然 后 训练 一 个 简单 的 卷 积 神经 网 络 来 学 习 这 个 特定 风格 的 
变换 。 一 旦 完成 之 后 ， 对 一 张 图 像 进行 风格 迁移 是 非常 快 的 ， 只 是 这 个 小 型 卷 积 神经 网 络 的 一 
次 前 向 传递 而 已 。 




















8.3.4 小结 


口 风格 迁移 是 指 创 建 一 张 新 图 像 ， 保 留 目 标 图 像 的 内 容 的 同时 还 抓 住 了 参考 图 像 的 风格 。 
口 内 容 可 以 被 卷 积 神经 网 络 更 靠 硕 部 的 层 激活 所 捕捉 到 。 

口 风格 可 以 被 卷 积 神经 网 络 不 同 层 激 活 的 内 部 相互 关系 所 捕捉 到 。 

口 因此 ,深度 学 习 可 以 将 风格 迁移 表述 为 一 个 最 优化 过 程 ， 并 用 到 了 一 个 用 预 训练 卷 积 神 
经 网 络 所 定义 的 损失 。 

口 从 这 个 基本 想法 出 发 ， 可 以 有 许多 变 体 和 改进 。 
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从 图 像 的 潜在 空间 中 采样 ， 并 创建 全 新 图 像 或 编辑 现 有 图 像 ， 这 是 目前 最 流行 也 是 最 成 
功 的 创造 性 人 工 智 能 应 用 。 在 本 节 和 下 一 节 中 ,我 们 将 会 介绍 一 些 与 图 像 生 成 有 关 的 高 级 概 
念 ， 还 会 介绍 该 领域 中 两 种 主要 技术 的 实现 细节 ， 这 两 种 技术 分 别 是 变 分 自 编 码 器 (VAE， 
variational autoencoder ) 和 生成 式 对 抗 网 络 (GAN ，generative adversarial network )。 我 们 这 里 介 
绍 的 技术 不 仅 适用 于 图 像 ， 使 用 GAN 和 VAE 还 可 以 探索 声音 、 音 乐 甚至 文本 的 潜在 空间 , 但 
在 实践 中 ， 最 有 趣 的 结果 都 是 利用 图 像 获得 的 ， 这 也 是 我 们 这 里 介绍 的 重点 。 


8.4.1 从 图 像 的 潜在 空间 中 采样 


图 像 生 成 的 关键 思想 就 是 找到 一 个 低 维 的 表示 潜在 空间 (latent space， 也 是 一 个 向 量 空间 )， 
其 中 任意 点 都 可 以 被 映射 为 一 张 通 真 的 图 像 。 能 够 实现 这 种 映射 的 模块 ， 即 以 潜在 点 作为 输入 
并 输出 一 张 图 像 (像素 网 格 )， 叫 作 生 成 器 ( generator， 对 于 GAN 而 言 ) 或 解码 器 (decoder， 
对 于 VAE 而 言 )。 一 旦 找到 了 这 样 的 潜在 空间 ， 就 可 以 从 中 有 意 地 或 随机 地 对 点 进行 采样 ， 并 
将 其 映射 到 图 像 空间 ， 从 而 生成 前 所 未 见 的 图 像 ( 见 图 8-9 )。 














































































































下 
/ 
hy 


VW 
| 
、 
SS 


A 
A 
oe 


六 
-© 
RE 





训练 数据 























下 像 的 潜在 空间 


(一 个 向 量 空间 ) 














| 生成 器 /解码 器 


来 自 潜在 空间 人 造 图 像 
的 向 量 




















图 8-9 ”学 习 图 像 的 潜在 向 量 空间 ， 并 利用 这 个 空间 来 采样 新 图 像 











想 要 学 习 图 像 表 示 的 这 种 潜在 空间 ，GAN 和 VAE 是 两 种 不 同 的 策略 ， 每 种 策略 都 有 各 自 
的 特点 。VAE 非常 适合 用 于 学 习 具 有 良好 结构 的 潜在 空间 ， 其 中 特定 方向 表示 数据 中 有 意义 的 
变化 轴 ( 见 图 8-10 )。GAN 生成 的 图 像 可 能 非常 台 真 ， 但 它 的 潜在 空间 可 能 没有 良好 结构 ， 也 


没有 足够 的 连续 性 。 























图 8-10” Tom White 使 用 VAE 生成 的 人 脸 连 续 空 间 





8.4.2 图 像 编 辑 的 概念 向 量 


第 6 章 介 绍 词 租 入 时 ， 我 们 已 经 暗示 了 概念 向 量 ( concept vector ) 的 想法 : 给 定 一 个 表示 
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的 潜在 空间 或 一 个 区 入 空间 ， 空 间 中 的 特定 方向 可 能 表示 原始 数据 中 有 趣 的 变化 轴 。 比 如 在 人 
脸 图 像 的 潜在 空间 中 ， 可 能 存在 一 个 微笑 向 量 ( smile vector ) s， 它 满足 : 如 果 潜 在 点 z 是 某 张 
人 脸 的 能 入 表示 ,那么 潜在 点 z+s 就 是 同一 张 人 脸面 带 微笑 的 能 入 表示 。 一 旦 找到 了 这 样 的 向 量 ， 
就 可 以 用 这 种 方法 来 编辑 图像 : 将 图 像 投 射 到 洪 在 空间 中 ， 用 一 种 有 意义 的 方式 来 移动 其 表示 ， 
然后 再 将 其 解码 到 图 像 空 间 。 在 图 像 空 间 中 任意 独立 的 变化 维度 都 有 概念 向 量 ， 对 于 人 脸 而 言 ， 
你 可 能 会 发 现 向 人 脸 添 加 墨镜 的 向 量 、 去 折 墨 镜 的 向 量 。 将 男性 面孔 变 成 女性 面孔 的 向 量 等 。 
图 8-11 是 一 个 微笑 向 量 的 例子 ， 它 是 由 新 西 兰 维多利亚 大 学 设计 学 院 的 Tom White 发 现 的 概念 
回 量 ， 使 用 的 是 在 名 人 人 脸 数据 集 (CelebA 数据 集 ) 上 训练 的 VAE。 





























图 8-11 微笑 向 量 





8.4.3 ” 变 分 自 编码 器 


自 编码 器 由 Kingma 和 Welling 于 2013 年 12 月 与 Rezende 、Mohamed 和 Wierstra 于 2014 
年 1 月 2 同时 发 现 , 它 是 一 种 生成 式 模型 , 特别 适用 于 利用 概念 向 量 进行 图 像 编 辑 的 任务 。 它 是 
一 种 现代 化 的 自 编 码 带 ,将 深度 学 习 的 想法 与 贝 叶 斯 推断 结合 在 一 起 。 自 编 码 带 是 一 种 网 络 类 型 
其 目的 是 将 输入 编码 到 低 维 潜在 空间 ， 然 后 再 解码 回来 。 

经 由 的 图 像 自 编码 需 接收 一 张 图 像 ， 通 过 一 个 编码 顺 模 块 将 其 映射 到 潜在 向 量 空间 ， 然 后 
再 通过 一 个 解码 需 模 块 将 其 解码 为 与 原始 图 像 具 有 相同 尺 二 的 输出 〈 见 图 8-12 )。 然 后 ， 使 用 与 
输入 图 像 相 同 的 图 像 作为 目标 数据 来 训练 这 个 自 编码 器 ， 也 就 是 说 ， 自 编码 需 学 习 对 原始 输入 
进行 重新 构建 。 通 过 对 代码 ( 编码 器 的 输出 ) 施加 各 种 限制 ,我们 可 以 让 自 编码 器 学 到 比较 有 
趣 的 数据 潜在 表示 。 最 常见 的 情况 是 将 代码 限制 为 低 维 的 并 且 是 稀 玻 的 〈 即 大 部 分 元 素 为 0 )， 
在 这 种 情况 下 ， 编 码 器 的 作用 是 将 输入 数据 压缩 为 更 少 二 进 制 位 的 信息 。 
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@ 参见 Diederik P Kingma 和 Max Welling 于 2013 年 发 表 的 文章 “Auto-encoding variational bayes”。 
@ 参见 Danilo Jimenez Rezende 、Shakir Mohamed 和 Daan Wierstra 于 2014 年 发 表 的 文章 “Stochastic backpropagation 


and approximate inference in deep generative models”。 
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Wa- 编码 器 本 - 解码 器 


原始 输入 x 压缩 表示 重新 构建 的 
输入 Xx， 


图 8-12 ” 自 编码 器 : 将 输入 x 映射 为 压缩 表示 ， 然 后 再 将 其 解码 为 x 


在 实践 中 ， 这 种 经 典 的 自 编 码 器 不 会 得 到 特别 有 用 或 具有 良好 结构 的 潜在 空间 。 它 们 也 没 
有 对 数据 做 多 少 压缩 。 因 此 ,它们 已 经 基本 上 过 时 了 。 但 是 ，VAE 向 自 编 码 需 添加 了 一 点 统计 
魔法 ,迫使 其 学 习 连 续 的 、 高 度 结构 化 的 潜在 空间 。 这 使 得 VAE 已 成 为 图 像 生成 的 强大 工具 。 

VAE 不 是 将 输入 图 像 压 缩 成 潜在 空间 中 的 固定 编码 ， 而 是 将 图 像 转 换 为 统计 分 布 的 参数 ， 
即 平均 值 和 方差 。 本 质 上 来 说 ， 这 意味 着 我 们 假设 输入 图 像 是 由 统计 过 程 生成 的 ， 在 编码 和 解 
码 过 程 中 应 该 考虑 这 一 过 程 的 随机 性 。 然 后 ，VAE 使 用 平均 值 和 方差 这 两 个 参数 来 从 分 布 中 随 
机 采样 一 个 元 素 ， 并 将 这 个 元 素 解码 到 原始 输入 〈 见 图 8-13 )。 这 个 过 程 的 随机 性 提高 了 其 稳健 
性 ， 并 迫使 潜在 空间 的 任何 位 置 都 对 应 有 意义 的 表示 ， 即 潜在 空间 采样 的 每 个 点 都 能 解码 为 有 
效 的 输出 。 



























































z_mean4 和 z_log_var 
所 定义 的 潜在 
输入 图 像 空间 中 的 分 布 


一 -Ar 
pe 重新 构建 的 








图 像 


-0m 入 


从 分 布 中 随机 
采样 的 点 


图 8-13 ”VAE 将 一 张 图 像 映 射 为 两 个 向 量 z_mean 和 z_log_var， 二 者 定义 了 潜在 
空间 中 的 一 个 概率 分 布 ， 用 于 采样 一 个 潜在 点 并 对 其 进行 解码 
从 技术 角度 来 说 ，VAE 的 工作 原理 如 下 。 
(1) 一 个 编码 器 模块 将 输入 样本 input_img 转换 为 表示 潜在 空间 中 的 两 个 参数 z_mean 和 
Zz_log varianceo 
(2) 我 们 假定 潜在 正 态 分 布 能 够 生成 输入 图 像 ， 并 从 这 个 分 布 中 随机 采样 一 个 点 z: z = 
z_mean + exp(z_log variance) * epsilon， 其 中 epsilon 是 取 值 很 小 的 随机 
张 量 。 
(3) 一 个 解码 如 模块 将 潜在 空间 的 这 个 点 映射 回 原始 输入 图 像 。 
因为 epsilon 是 随机 的 ， 所 以 这 个 过 程 可 以 确保 ， 与 input_img 编码 的 潜在 位 置 ( 即 
z-mean ) 靠近 的 每 个 点 都 能 被 解码 为 与 input_img 类 似 的 图 像 ， 从 而 迫使 潜在 空间 能 够 连续 
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地 有 意义 。 潜 在 空间 中 任意 两 个 相 邻 的 点 都 会 被 解码 为 高 度 相似 的 图 像 。 连 续 性 以 及 潜在 空间 
的 低 维 度 ， 将 迫使 潜在 空间 中 的 每 个 方向 都 表示 数据 中 一 个 有 意义 的 变化 轴 ， 这 使 得 潜在 空间 
具有 非常 良好 的 结构 ， 因 此 非常 适合 通过 概念 向 量 来 进行 操作 。 

VAE 的 参数 通过 两 个 损失 函数 来 进行 训练 : 一 个 是 重 构 损 失 ( reconstruction loss )， 它 迫 
使 解码 后 的 样本 匹配 初始 输入 ; 男 一 个 是 正则 化 损失 ( regularization loss )， 它 有 助 于 学 习 具 有 
良好 结构 的 潜在 空间 ， 并 可 以 降低 在 训练 数据 上 的 过 拟 合 。 我 们 来 快速 浏览 一 下 Keras 实现 的 
VAE。 其 大 致 代码 如 下 所 示 。 


Zz_mean, 2z_log_variance = encoder (input_img) 一 将 输入 编码 为 平均 值 和 方差 两 个 参数 
Zz = Z_mean + exp(z_log_ variance) * epsilon 一 使 用 小 随机 数 epsilon 来 抽取 一 个 潜在 点 





reconstructed_img = decoder(z) < 一 将 z 解码 为 一 张 图 像 


model = Model (input_img, reconstructed_ img) 将 自 编码 器 模型 实例 化 ， 它 将 一 张 
输入 图 像 映射 为 它 的 重 构 
然后 ， 你 可 以 使 用 重 构 损 失 和 正则 化 损失 来 训练 模型 。 
下 列 代码 给 出 了 我 们 将 使 用 的 编码 器 网 络 ， 它 将 图 像 映 射 为 潜在 空间 中 概率 分 布 的 参数 。 
它 是 一 个 简单 的 卷 积 神经 网 络 ， 将 输入 图 像 x 映射 为 两 个 向 量 z_mean 和 2z_1og_var。 


代码 清单 8-23 ”VAE 编码 器 网 络 


import keras 

from keras import layers 

from keras import backend as K 
from keras.models import Model 
import numpy as np 


img_shape = (28, 28, 1) 潜在 空间 的 维度 : 
batch size = 16 一 个 二 维 平面 
latent_ dim = 2 


input_img = keras.Input (shape=img_shape) 


x = layers.Conv2D(32, 3, 
padding='same', activation='relu’') (input_img) 
X = layers.Conv2D(64, 3, 
padding='same', activation='relu', 
strides=(2, 2)) (x) 
x = layers.Conv2D(64, 3, 
padding='same', activation='relu') (x) 
x = layers.Conv2D(64, 3, 
padding='same', activation='relu') (x) 
shape_before flattening = K.int_shape (x) 











x = layers.Flatten() (x) 

x = layers.Dense(32, activation='relu') (x) 

z_mean = layers.Dense(latent_dim) (x) 输入 图 像 最 终 被 编码 
ZzZ_log_var = layers.Dense(latent_dim) (x) 为 这 两 个 参数 
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接 下 来 的 代码 将 使 用 z_mean 和 z_1log_var 来 生成 一 个 潜在 空间 点 z, z_mean 和 z_log_ 
var 是 统计 分 布 的 参数 ， 我 们 假设 这 个 分 布 能 够 生成 input_img。 这 里 ,我 们 将 一 些 随意 的 代 
人 码 ( 这 些 代码 构建 于 Keras 后 端 之 上 ) 包装 到 Lambgda 层 中 。 在 Keras 中 ， 任 何 对 象 都 应 该 是 一 
个 层 , 所 以 如 果 代 码 不 是 内 置 层 的 一 部 分 ,我 们 应 该 将 其 包装 到 一 个 Lampbga 层 (或 自 定义 层 ) 中 。 





代码 清单 8-24 ” 洪 在 空间 采样 的 葬 交 


def sampling (args): 
z_mean, ZzZ_log_var = args 
epsilon = K.random normal (shape=(K.shape(z_mean) [0], latent_ dim), 
mean=0., stddev=1.) 
return z_ mean + K.exp(z_log var) * epsilon 


z = layers.Lambda(sampling) ([z_mean, z_log_var]) 


下 列 代 码 给 出 了 解码 咒 的 实现 。 我 们 将 向 量 z 的 尺寸 调整 为 图 像 大 小 ， 然 后 使 用 几 个 卷 积 
层 来 得 到 最 终 的 图 像 输 出 ， 它 和 原始 图 像 input_img 具有 相同 的 大 小 。 





decoder_input = layers.Input (K.int_shape(z)[1:]) < 一 需要 将 z 输入 到 这 里 
x = layers.Dense(np.prod(shape before flattening[1:]), 二 二 
activation='relu') (decoder_input) 对 输入 进行 上 采样 
Xx = layers.Reshape (shape_ before_ flattening[1:]) (x) > a 
将 z 转换 为 特征 图 ， 使 其 形状 与 编码 
x = layers.Conv2DTranspose(32, 3, 器 模型 最 后 一 个 Flatten 层 之 前 的 特 
padding='same', 征 图 的 形状 相同 


activation="relu', 


一 个 三 和 -个 
Strides=(2,. 2) tx) 使 用 一 个 Conv2DTranspose 层 和 一 个 


x = layers.Conv2D(1, 3, Conv2D 层 ， 将 z 解码 为 与 原始 输入 图 
padding='same', 像 具有 相同 尺寸 的 特征 图 


activation='sigmoid') (x) 





将 解码 器 模型 实例 化 ， 它 将 decoder_input 


decoder = Model (decoder_input, x) 
转换 为 解码 后 的 图 像 


z_decoded = decoder (z) 
te z， 以 得 到 解码 后 的 z 
我 们 一 般 认 为 采样 函数 的 形式 为 ]oss (input， target)，VAE 的 双重 损失 不 符合 这 种 形 


式 。 因 此 ,损失 的 设置 方法 为 : 编写 一 个 自 定 义 层 ， 并 在 其 内 部 使 用 内 置 的 aad_loss 层 方 法 
来 创建 一 个 你 想 要 的 损失 。 





代码 清单 8-26 ”用 于 计算 VAE 损失 的 自 定义 层 


class CustomVariationalLayer (keras.layers.Layer): 


def vae_loss(self, x, 2z_decoded): 
x 三 K.flattenl(x) 
Zz_decoded = K.flatten(z_decoded) 


8.4 用 变 分 自 编码 器 生成 图 像 ” 255 





xent_loss = keras.metrics.binary_crossentropy (x, z_decoded) 
kl_loss = -5e-4 * K.meanl( 

1 + Z_log var - K.square(z mean) - K.exp(z_log var), axis=-1) 
return K.mean(xent_loss + kl_loss) 


def calll(self, inputs): | 通过 编写 一 个 cal1 方法 来 
= i ts[0 
inputs [0] 实现 自 定义 层 


z_decoded = inputs[1] 








loss = self.vae, loss (x, 2z_decoded) 我 们 不 使 用 这 个 输出 ， 
self.adqd_ loss(loss, inputs=inputs) 但 层 必须 要 有 返回 值 
return x 4 es 
y = CustomVariationalLayer() ([input_img, z_decoded]) 、 
对 输入 和 解码 后 的 输出 调用 自 定 
义 层 ， 以 得 到 最 终 的 模型 输出 


最 后 ， 将 模型 实例 化 并 开始 训练 。 因 为 损失 包含 在 自 定义 层 中 ， 所 以 在 编译 时 无 须 指 定 外 
部 损失 ( 即 loss=None )， 这 意味 着 在 训练 过 程 中 不 需要 传人 目标 数据 。( 如 你 所 见 ， 我 们 在 调 
用 fit 时 只 向 模型 传人 了 x_train。 ) 


代码 清单 8-27 ”训练 VAE 


from keras.datasets import mnist 





vae = Model (input_img, y) 
vae.compile(optimizer='rmsprop', loss=None) 
vae.summary () 


(x_train, _), (x test, y_test) = mist.load data() 





x train = x train.astype('float32') / 255. 

x_ train = x train.reshape (x train.shape + (1,)) 
x_ test = x test.astype('float32') / 255. 

x _ test = x test.reshape(x test.shape + (1,)) 


vae.fit (x=x_ train, y=None, 
shuffle=True, 
epochs=10, 
batch_ size=batch_ size, 
validation data=(x_test, None)) 


一 旦 训练 好 了 这 样 的 模型 ( 本 例 中 是 在 MNIST 上 训练 )， 我 们 就 可 以 使 用 aecoder 网 络 将 
任意 潜在 空间 向 量 转 换 为 图 像 。 








代码 清单 A NE 
import matplotlib.pyplot as plt GE 
from scipy.stats import norm 我 们 将 显示 15X 15 的 数字 网 格 
( 共 255 个 数字 ) 
这 三 - 半 5 . 稳 
digit_size = 28 由 使 用 SciPy 的 ppf 函数 对 线性 分 隔 的 坐 
figure = np.zeros((digit_ size * n, digit_ size * n)) 标 进行 变换 , 以 生成 潜在 变量 z 的 值 ( 因 


grid x = norm.ppf (np.linspace(0.05, 0.95, n)) 


gridy = norm.ppf (np.linspace(0.05, 0.95, n)) 为 潜在 空间 的 先 验 分 布 是 高 斯 分 布 ) 
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for i, yi in enumerate(grid x): 


for j, xi in enumerate (griqd y): 
z_sample = np.array ([[xi, 
z_sample = 


digit = x decoded[0] 
figure[i * digit_ size: 
j * digit size: 


(i 
(j 
DL 


Plt 
Blt, 


(10, 10)) 
imshow (figure, cmap='Greys_r' 
Show () 


figure(figsize= 


np.tile(z_sample, batch_ size) 
Xx_decoded = decoder.predict (z_sample, batch size=batch size) 
.reshape (digit_size, digit_size) 


yi]]) 


将 z 多 次 重复 ， 以 构建 
一 个 完整 的 批量 
.reshape (batch_ size, 2) 


将 批量 解码 





+ 1) * digit_ size, 

+ 1) * digit_size] = digit 为 数字 图 像 
将 批量 第 一 个 数字 的 

) 形状 从 28X28X1 转 
变 为 28X28 





采样 数字 的 网 格 ( 见 图 8-14 ) 展示 了 不 同 数字 类 别 的 完全 连 


一 条 路 径 观察 时 ， 你 会 观察 到 一 个 数字 逐渐 变形 为 另 一 个 数字 
的 意义 ， 比 如 ， 有 一 个 方向 表示 “逐渐 变 为 4” 


下 一 节 我 们 将 会 详细 介绍 生成 人 造 图 


本 续 分 布 : 当 你 沿 着 潜在 空 
这 个 空间 的 特定 方向 具有 一 
、 有 一 个 方向 表示 ， “逐渐 变 为 1” 等 。 
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8.4.4 


小 结 





口 用 深度 学 习 进 行 图 像 生成 ， 就 是 通过 对 潜在 空 
捕捉 到 关于 图 像 数 据 集 的 统计 信息 。 通 过 对 潜在 空 
生成 前 所 未 见 的 图 像 。 这 种 方法 有 两 种 重 





网 络 (GAN )。 


2 
2 
名 
S 
5 
Z 
Z 
2 
2 
? 





从 潜在 空间 解码 得 到 的 数字 


像 的 另 一 个 重要 工具 ， 即 生成 式 对 抗 网 络 (GAN )。 


DB 
DD 
WwWYWMWO 人 NO 
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2222 
S332 
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F888 
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F877 
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cm 
w 
Se 
sm 
sm 
ns 
_ 
~ 
AN 


网 格 


s 间 进行 学 习 来 实现 的 ， 这 个 潜在 空间 能 够 
s 间 中 的 点 进行 采样 和 解码 ， 我 们 可 以 
要 工具 : 变 分 自 编 码 器 ( VAE ) 和 生成 式 对 抗 
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口 VAE 得 到 的 是 高 度 结构 化 的 、 连 续 的 潜在 表示 。 因 此 ， 它 在 潜在 空间 中 进行 各 种 图 像 编 
辑 的 效果 很 好 ， 比 如 换 脸 、 将 皱眉 脸 换 成 微笑 脸 等 。 它 制作 基于 潜在 空间 的 动画 效果 也 
很 好 ， 比 如 沿 着 潜在 空间 的 一 个 横 截 面 移动 ， 从 而 以 连续 的 方式 显示 从 一 张 起 始 图 像 绥 
慢 变 化 为 不 同 图 像 的 效果 。 

口 GAN 可 以 生成 逼真 的 单 幅 图 像 ， 但 得 到 的 潜在 空间 可 能 没有 良好 的 结构 ， 也 没有 很 好 的 
连续 性 。 

对 于 图 像 ， 我 见 过 的 大 多 数 成 功 的 实际 应 用 都 是 依赖 于 VAE 的 , 但 GAN 在 学 术 研究 领域 

非常 流行 ， 至 少 在 2016 一 2017 年 左右 是 这 样 。 下 一 节 将 会 介绍 GAN 的 工作 原理 以 及 实现 。 











提示 “如果 你 想 进一步 研究 图 像 生 成 ， 我 建议 你 使 用 大 规模 名 人 人 脸 属 性 (CelebA ) 数据 集 。 
它 是 一 个 可 以 免费 下 载 的 图 像 数据 集 ， 里 面包 含 超过 20 万 张 名 人 肖像 ， 特 别 适 合用 概念 
向 量 进行 实验 ， 其 结果 肯定 能 打败 MNIST。 


8.5 生成 式 对 抗 网 络 简介 


生成 式 对 抗 网 络 (GAN ，generative adversarial network ) 由 Goodfellow 等 人 于 2014 年 提 
出 , 它 可 以 替代 VAE 来 学 习 图 像 的 潜在 空间 。 它 能 够 迫使 生成 图 像 与 真实 图 像 在 统计 上 几乎 无 
法 区 分 ， 从 而 生成 相当 通 真 的 合成 图 像 。 

对 GAN 的 一 种 直观 理解 是 ， 想 象 一 名 伪造 者 试图 伪造 一 副 毕 加 索 的 画作 。 一 开始 ， 伪 造 者 
非常 不 擅长 这 项 任务 ,他 将 自己 的 一 些 雁 品 与 毕加索 真迹 混在 一 起 ,并 将 其 展示 给 一 位 艺术 商人 。 
艺术 商人 对 每 幅 画 进行 真实 性 评估 ， 并 向 伪造 者 给 出 反馈 ， 告 诉 他 是 什么 让 毕加索 作品 看 起 来 
像 一 幅 毕 加 索 作 品 。 伪 造 者 回 到 自己 的 工作 室 ， 并 准备 一 些 新 的 用品 。 随 着 时 间 的 推移 ， 伪 造 
者 变 得 起 来 越 擅 长 模仿 毕加索 的 风格 ， 艺 术 商 人 也 变 得 起 来 越 擅 长 找 出 左 品 。 最 后 ， 他 们 手 上 
拥有 了 一 些 优秀 的 毕加索 寿 品 。 

这 就 是 GAN 的 工作 原理 : 一 个 伪造 者 网 络 和 一 个 专家 网 络 ， 二 者 训练 的 目的 都 是 为 了 打败 
彼此 。 因 此 ，GAN 由 以 下 两 部 分 组 成 。 

口 生成 器 网 络 〈generator network ) : 它 以 一 个 随机 向 量 ( 潜在 空间 中 的 一 个 随机 点 ) 作 

为 输入 ， 并 将 其 解码 为 一 张 合成 图 像 。 

口 判别 器 网 络 〈discriminator network ) 或 对 手 ( adversary ) : 以 一 张 图 像 (真实 的 或 合成 的 
均 可 ) 作为 输入 ， 并 预测 该 图 像 是 来 自 训 练 集 还 是 由 生成 器 网 络 创 建 。 

训练 生成 需 网 络 的 目的 是 使 其 能 够 苏 骗 判别 需 网 络 ， 因 此 随 着 训练 的 进行 ， 它 能 够 逐渐 生 
成 越 来 越 逼 真 的 图 像 ， 即 看 起 来 与 真实 图像 无 法 区 分 的 人 造 图 像 ， 以 至 于 判别 融 网 络 无 法 区 分 二 
者 ( 见 图 8-15 )。 与 此 同时 ， 判 别 器 也 在 不 断 适 应 生成 器 逐渐 提高 的 能 力 ， 为 生成 图 像 的 真实 性 
设置 了 很 高 的 标准 。 一 旦 训练 结束 ， 生 成 器 就 能 够 将 其 输入 空间 中 的 任何 点 转换 为 一 张 可 信和 图 像 
( 见 图 8-16 )。 与 VAE 不 同 ， 这 个 潜在 空间 无 法 保证 具有 有 意义 的 结构 ， 而 且 它 还 是 不 连续 的 。 


















































CD 参见 Tan Goodfellow 等 人 于 2014 年 发 表 的 文章 “Generative adversarial networks”。 
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潜在 空间 中 的 
随机 向 量 





成 图 人 


生成 区 
(解码 后 的 图 像 ) 


生成 器 (解码 器 ) 上 一 
-| 0 3 


真实 图 像 与 

伪造 图 像 的 混合 

图 8-15 生成 器 将 随机 潜在 向 量 转换 成 图 像 ， 判 别 器 试图 分 辩 真 实 图 像 与 生成 图 像 。 

生成 器 的 训练 是 为 了 欺骗 判别 器 
值得 注意 的 是 ，GAN 这 个 系统 与 本 书 中 其 他 任何 训练 方法 都 不 同 ， 它 的 优化 最 小 值 是 不 固 

定 的 。 通 常 来 说 ， 梯 度 下 降 是 沿 着 静态 的 损失 地 形 滨 下 山坡 。 但 对 于 GAN 而 言 ， 每 下 山 一 步 ， 
都 会 对 整个 地 形 造成 一 点 改变 。 它 是 一 个 动态 的 系统 ， 其 最 优化 过 程 寻找 的 不 是 一 个 最 小 值 ， 
而 是 两 股 力量 之 间 的 平衡 。 因 此 ，GAN 的 训练 极其 困难 ， 想 要 让 GAN 正常 运行 ， 需要 对 模型 
架构 和 训练 参数 进行 大 量 的 仔细 调整 。 


























训练 反馈 




































































图 8-16 ”潜在 空间 的 “居民 ”。Mike Tyka 利用 在 人 脸 数 据 集 上 训练 的 多 级 GAN 所 生成 的 图 像 


8.5.1 GAN 的 简要 实现 流程 


本 节 将 会 介绍 如 何 用 Keras 来 实现 形式 最 简单 的 GAN。GAN 属于 高 级 应 用 ， 所 以 本 书 
不 会 深入 介绍 其 技术 细节 。 我 们 具体 实现 的 是 一 个 深度 卷 积 生成 式 对 抗 网 络 (DCGAN ，deep 
convolutional GAN )， 即 生成 缮 和 判别 器 都 是 深度 卷 积 神经 网 络 的 GAN。 特 别 地 ， 它 在 生成 器 中 
使 用 conv2DTranspose 层 进 行 图 像 上 采样 。 

我 们 将 在 CIFAR10 数据 集 的 图 像 上 训练 GAN， 这 个 数据 集 包 含 50 000 张 32 x32 的 RGB 




















8.$ 生成 式 对 抗 网 络 简介 259 








图 像 , 这 些 图 像 属于 10 个 类 别 ( 每 个 类 别 5000 张 图 像 )。 为 了 简化 ,我 们 只 使 用 属于 “frog”( 青 
蛙 ) 类 别 的 图 像 。 

GAN 的 简要 实现 流程 如 下 所 示 。 

(1) generator 网 络 将 形状 为 (latent_dim, ) 的 向 量 映射 到 形状 为 432，32，3) 的 图 像 。 

(2) discriminator 网 络 将 形状 为 (32， 32， 3) 的 图 像 映 射 到 一 个 二 进 制 分 数 ， 用 于 评 
佑 图 像 为 真 的 概率 。 

(3) gan 网 络 将 generator 网 络 和 discriminator 网 络 连接 在 一 起 : gan (x) = discriminator 
(generator (x) ) 。 生 成 融 将 潜在 空间 向 量 解码 为 图 像 ， 判 别 器 对 这 些 图 像 的 真实 性 进 
行 评 估 ， 因 此 这 个 gan 网 络 是 将 这 些 潜在 向 量 映射 到 判别 需 的 评估 结果 。 

(4) 我 们 使 用 带 有 “ 真 ”/“ 假 ”标签 的 真 假 图 像样 本 来 训练 判别 器 ， 就 和 训练 普通 的 图 像 
分 类 模型 一 样 。 

(5) 为 了 训练 生成 器 ， 我 们 要 使 用 gan 模型 的 损失 相对 于 生成 器 权重 的 梯度 。 这 意味 着 ， 
在 每 一 步 都 要 移动 生成 需 的 权重 ， 其 移动 方向 是 让 判别 需 更 有 可 能 将 生成 器 解码 的 图 像 
划分 为 “ 真 "。 换 句 话 说， 我 们 训练 生成 器 来 欺骗 判别 需 。 


8.5.2 ”大 量 技巧 


训练 GAN 和 调节 GAN 实现 的 过 程 非常 困难 。 你 应 该 记 住 一 些 公认 的 技巧 。 与 深度 学 习 中 
的 大 部 分 内 容 一 样 ， 这 些 技巧 更 像 是 炼金 术 而 不 是 科学 ， 它 们 是 启发 式 的 指南 ， 并 没有 理论 上 
的 支持 。 这 些 技 巧 得 到 了 一 定 程度 的 来 自 对 现象 的 直观 理解 的 支持 ,经验 告诉 我 们 ， 它 们 的 效 
果 都 很 好 ， 但 不 一 定 适 用 于 所 有 情况 。 

下 面 是 本 节 实 现 GAN 生成 器 和 判别 器 时 用 到 的 一 些 技巧 。 这 里 并 没有 列 出 与 GAN 相关 的 
全 部 技巧 ， 更 多 技巧 可 查阅 关于 GAN 的 文献 。 

口 我 们 使 用 tanh 作为 生成 器 最 后 一 层 的 激活 , 而 不 用 sigmoig, 后 者 在 其 他 类 型 的 模型 中 

更 加 常见 。 

口 我 们 使 用 正 态 分 布 〈 高 斯 分 布 ) 对 潜在 空间 中 的 点 进行 采样 ， 而 不 用 均匀 分 布 。 

口 随机 性 能 够 提高 稳健 性 .训练 GAN 得 到 的 是 一 个 动态 平衡 ,所 以 GAN 可 能 以 各 种 方式 “ 卡 
住 ”。 在 训练 过 程 中 引入 随机 性 有 助 于 防止 出 现 这 种 情况 。 我 们 通过 两 种 方式 引入 随机 性 : 
一 种 是 在 判别 器 中 使 用 dropout， 另 一 种 是 向 判别 器 的 标签 添加 随机 噪声 。 

口 稀 焉 的 梯度 会 妨碍 GAN 的 训练 。 在 深度 学 习 中 ， 稀 玻 性 通常 是 我 们 需要 的 属性 ， 但 在 
GAN 中 并 非 如 此 。 有 两 件 事情 可 能 导致 梯度 稀 鸣 : 最 大 池 化 运算 和 ReLU 激活 。 我 们 推 
厦 使 用 步 进 卷 积 代替 最 大 池 化 来 进行 下 采样 ， 还 推荐 使 用 LeakyReLU 层 来 代替 ReLU 激 
活 。LeakyReLU 和 ReLU 类 似 ， 但 它 允 许 较 小 的 负数 激活 值 ， 从 而 放宽 了 稀 玻 性 限制 。 

口 在 生成 的 图 像 中 ， 经 常会 见 到 棋盘 状 伪 影 ， 这 是 由 生成 器 中 像素 空间 的 不 均匀 获 盖 导致 的 
( 见 图 8-17 )。 为 了 解决 这 个 问题 ， 每 当 在 生成 咒 和 判别 器 中 都 使 用 步 进 的 conv2DTranpose 
或 conv2D 时 ， 使 用 的 内 核 大 小 要 能 够 被 步 幅 大 小 整除 。 
































































































































图 8-17 由 于 步 幅 大 小 和 内 核 大 小 不 匹配 而 导致 的 棋盘 状 伪 影 ， 进 而 导致 
像素 空间 不 均匀 的 覆盖 ; 这 是 GAN 的 诸多 陷阱 之 一 


8.5.3 ”生成 器 


首先 ， 我 们 来 开发 generator 模型 ， 它 将 一 个 向 量 (来 自 潜在 空间 ， 训 练 过程 中 对 其 随机 
采样 ) 转换 为 一 张 候选 图 像 。GAN 和 常见 的 诸多 问题 之 一 ， 就 是 生成 事 “ 卡 在 ”看 似 噪声 的 生成 


图 像 上 。 一 种 可 行 的 解决 方案 是 在 判别 器 和 生成 器 中 都 使 用 dropout。 
代码 清单 8-29 GAN 生成 器 网 络 


import keras 
from keras import layers 
import numpy as np 


latent_dim = 32 
height = 32 
width = 32 
channels = 3 





























generator_input = keras.Input (shape=(latent_dim, )) 
x = layers.Dense(128 * 16 * 16) (generator_input) 将 输入 转换 为 大 小 为 16X16 的 
x = layers.LeakyReLU () (x) 个 谣 } 1 
128 首 的 特 
x = layers.Reshape((16, 16, 128)) (x) 通道 的 特征 图 
x = layers.Conv2D(256, 5, padding='same') (x) 
x = layers.LeakyReLU() (x) 
x = layers.Conv2DTranspose(256, 4, strides=2, padding='same') (x) 上 采样 为 32X32 
x = layers.LeakyReLU() (x) 
x = layers.Conv2D(256, 5, padding='same') (x) 
x = layers.LeakyReLU() (x) 
x = layers.Conv2D(256, 5, padding='same') (x) 
x = layers.LeakyReLU() (x) 
x = layers.Conv2D(channels, 7, activation='tanh', padding='same') (x) 
generator = keras.models.Model (generator_input, x) 
generator.summary () 
将 生成 器 模型 实例 化 ， 它 将 形状 为 (latent_aim,) 生成 一 个 大 小 为 32X 32 的 单 通 道 特征 图 


的 输入 映射 到 形状 为 (32，32，3) 的 图 像 ( 即 CIFAR10 图 像 的 形状 ) 
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8.5.4 判别 器 


接 下 来 ， 我 们 来 开发 aiscriminator 模型 ， 它 接收 一 张 候选 图 像 (真实 的 或 合成 的 ) 作 
为 输入 ， 并 将 其 划分 到 这 两 个 类 别 之 一 :“ 生 成 图 像 ” 或 “来 自 训 练 集 的 真实 图 像 ”。 


清单 8-30 GAN 判别 器 网 络 





discriminator_ input = layers.Input (shape=(height, width, channels)) 
= layers.Conv2D(128, 3) (discriminator_input) 

layers.LeakyReLU() (x) 

layers.Conv2D(128, 4, strides=2) (x) 

layers.LeakyReLU() (x) 

layers.Conv2D(128, 4, strides=2) (x) 

layers.LeakyReLU() (x) 

layers.Conv2D(128, 4, strides=2) (x) 

layers.LeakyReLU() (x) 


) 
layers.Flatten() (x) 一 个 dropout 层 : 这 是 
很 重要 的 技巧 





XXX wx x x 


x = layers.Dropout (0.4) (x) 





x = layers.Dense(1, activation='sigmoid') (x) < 一 分 类 层 将 判别 器 模型 实例 化 ， 它 
将 形状 为 (32， 32， 3) 
的 输入 转换 为 一 个 二 进 制 
分 类 决策 〈 真 / 假 ) 


discriminator = keras.models.Model (discriminator_input, x) 
discriminator.summary () 











discriminator_optimizer = keras.optimizers.RMSprop( i 3 、 计 和 
0 在 优化 器 中 使 用 榜 度 城 
clipvalue=1.0, (限制 梯度 值 的 范围 ) 
ee 为 了 稳定 训练 过 程 ， 使 用 

学 习 率 衰减 


discriminator.compile (optimizer=discriminator_optimizer, 
loss='binary_crossentropy') 


8.5.5 ”对抗 网 络 


最 后 ， 我 们 要 设置 GAN ， 将 生成 器 和 判别 需 连 接 在 一 起 。 训 练 时 ， 这 个 模型 将 让 生成 器 向 
某 个 方向 移动 ,从 而 提高 它 欺骗 判别 器 的 能 力 。 这 个 模型 将 潜在 空间 的 点 转换 为 一 个 分 类 决策 ( 即 
“ 真 ” 或 “ 假 ”), 它 训 练 的 标签 都 是 “真实 图 像 ”。 因 此 , 训练 gan 将 会 更 新 generator 的 权重 ， 
使 得 aiscriminator 在 观察 假 图 像 时 更 有 可 能 预测 为 “ 真 "。 请 注意 ， 有 一 点 很 重要 ， 就 是 在 
训练 过 程 中 需要 将 判别 器 设置 为 冻结 〈 即 不 可 训练 )， 这 样 在 训练 gan 时 它 的 权重 才 不 会 更 新 。 
如 果 在 此 过 程 中 可 以 对 判别 器 的 权重 进行 更 新 ， 那 么 我 们 就 是 在 训练 判别 器 始终 预测 “ 真 "， 但 
这 并 不 是 我 们 想 要 的 ! 


代码 清单 8-31 对 抗 网 络 


discriminator.trainable = False 4 








将 判别 器 权重 设置 为 不 可 训练 


区 开 | 
gan_input = keras.Input (shape=(latent_ dim,)) 〈 仅 应 用 于 gan 模型 ) 
gan_output = Qiscriminator (generator (gan_input) ) 
gan = keras.models.Model (gan_ input, gan_output) 





gan_optimizer = keras.optimizers.RMSprop(lr=0.0004, clipvalue=1.0, decay=1le-8) 
gan.compile (optimizer=gan optimizer, loss='binary_crossentropy') 


8.5.6 ”如 何 训 练 DCGAN 


现在 开始 训练 。 再 次 强调 一 下 ， 训 练 循环 的 大 致 流程 如 下 所 示 。 每 轮 都 进行 以 下 操作 。 

(1) 从 潜在 空间 中 抽取 随机 的 点 ( 随机 噪声 )。 

(2) 利用 这 个 随机 噪声 用 generator 生成 图 像 。 

(3) 将 生成 图 像 与 真实 图 像 混合 。 

(4) 使 用 这 些 混 合 后 的 图 像 以 及 相应 的 标签 ( 真实 图 像 为 “ 真 "， 生 成 图 像 为 “ 假 ”) 来 训练 
discriminator， 如 图 8-18 所 示 。 

(5) 在 潜在 空间 中 随机 抽取 新 的 点 。 

(6) 使 用 这 些 随机 向 量 以 及 全 部 是 “真实 图 像 ”的 标签 来 训练 gan。 这 会 更 新 生成 器 的 权重 
( 只 更 新 生成 器 的 权重 ， 因 为 判别 器 在 gan 中 被 冻结 )， 其 更 新 方向 是 使 得 判别 器 能 
将 生成 图 像 预测 为 “真实 图 像 ”。 这 个 过 程 是 训练 生成 器 去 欺骗 判 别 器 。 

我 们 来 实现 这 一 流程 。 




















图 8-18 假设 你 是 判别 器 : 在 每 一 列 中 , 有 两 张 图 像 是 上 
你 能 区 分 出 来 吗 〈 答 案 : 每 一 列 的 真实 图 像 分 别 位 于 中 、 上 、 下 、 中 ) 














代码 清单 8-32 ”实现 GAN 的 训练 





import os 


加 载 CIFAR10 
from keras.preprocessing import image 
数据 
(x_train, y_train), (_, _) = keras.datasets.cifar10.1load datal() 


x_train = x train[ly_train.flatten() == 6] < 一 选择 青蛙 图 像 (类 别 编号 为 6) 


x_train = x train.reshapel 
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训练 判 
别 器 


(x_train.shape[0],) + = 
(height, width, channels)).astype('float32') / 255. 数据 标准 化 
iterations = 10000 指定 保存 生成 
batch_ size = 20 图 像 的 目录 
save_dir = 'your_dir' 
start = 0 
for step in range(iterations): 在 潜在 空间 中 
random_ latent_vectors = np.random.normal (size=(batch size, 采样 随机 点 
latent_dim)) 将 这 些 点 解码 为 
generated_images = generator.predict (random latent vectors) 虚假 图 像 
0 将 这 些 虚 假 图 像 与 
stop = start + batch size 
实 图像 合 在 一 起 
real_images = x train[start: stop] 真实 图 像 合 在 一 起 
combined_ images = np.concatenate([generated images, real_images]) 
ee a 人 本 合并 标签 ， 区 分 真实 
abels = np.concatenate ( [np.ones atch_size, 3 
np.zeros( (batch_ size, 1))]) 和 虚假 的 图 像 
labels += 0.05 * np.random.random(labels.shape) 向 标签 中 添加 随机 
小 伟 /人 
品 二 斩 人 和 八 ， 
d_loss = discriminator.train on batch(combined images, labels) 噪声 ， 这 是 个 很 


一 


random_ 


mislead 
a_loss 

start + 
if star 


sta 


if step 
gan 


二 
入 十 
img 
img 


img 
img 








重要 的 技巧 
latent_ vectors = np.random.normal (size=(batch_size, 
latent_dim)) 在 潜在 空间 中 
采样 随机 点 
1 二 3 h_si ww = 
ing_targets np.zeros( (batch size ) ) 合并 标签 ， 全 部 是 
[3 sr 受 | 99 Bb [三 | 
= gan.train_ on batch(random latent_vectors, 通过 gan 模型 真实 图 像 ”〈 这 是 
misleading_targets) 来 训练 生成 器 在 撒谎 ) 
= batch_size 《此 时 冻结 判 
t > len(x _ train) - batch size: 别 器 权重 ) 
Et 0 
% 100 == 0: < 一 每 100 步 保 存 并 绘图 
.Save_weights('gan.h5') < 一 保存 模型 权重 
nt('discriminator loss:', d_loss) 全 指 标 打印 出 来 保存 一 张 
nt('adversarial 1oss:'，a loss) 将 指标 打印 出 生成 图 像 
= image.array_to_img (generated images[0] * 255., scale=False) 
.Save (os.path.join(save_dir, 
'generateqd_frog' + str(step) + '.png')) 
= image.array_to_img(real_ images[0] * 255., scale=False) 
.Save(os.path.join(save_dir, 保存 一 张 真实 图 


'real_frog' + str(step) + '.png')) 


像 ， 用 于 对 比 


训练 时 你 可 能 会 看 到 ， 对 抗 损失 开始 大 幅 增加 ， 而 判别 损失 则 趋向 于 零 ， 即 判别 需 最 终 文 配 
了 生成 锅 。 如 果 出 现 了 这 种 情况 , 你 可 以 尝试 减 小 判别 器 的 学 习 率 , 并 增 大 判别 器 的 dropout 比率 。 
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8.5.7 ”小结 


口 GAN 由 一 个 生成 右 网 络 和 一 个 判别 絮 网 络 组 成 。 判 别 絮 的 训练 目的 是 能 够 区 分 生成 带 的 
输出 与 来 自 训 练 集 的 真实 图 像 ， 生 成 器 的 训练 目的 是 欺骗 判别 器 。 值 得 注意 的 是 ， 生 成 
人 需 从 未 直接 见 过 训练 集中 的 图 像 ， 它 所 知道 的 关于 数据 的 信息 都 来 自 于 判别 需 。 

口 GAN 很 难 训练 ， 因 为 训练 GAN 是 一 个 动态 过 程 ， 而 不 是 具有 国定 损失 的 简单 梯度 下 降 

过 程 。 想 要 正确 地 训练 GAN， 需 要 使 用 一 些 启 发 式 技巧 ， 还 需要 大 量 的 调节 。 

口 GAN 可 能 会 生成 非常 逼真 的 图 像 。 但 与 VAE 不 同 ，GAN 学 习 的 潜在 空间 没有 整齐 的 连 
续 结 构 ， 因 此 可 能 不 适用 于 某 些 实际 应 用 ， 比 如 通过 潜在 空间 概念 向 量 进 行 图 像 编 辑 。 


本 章 总 结 


口 借助 深度 学 习 的 创造 性 应 用 ， 深 度 网 络 不 仅 能 够 对 现 有 内 容 进行 标注 ， 还 能 够 自己 生成 
新 内 容 。 本 章 我 们 学 到 的 内 容 如 下 。 
， 如 何 生成 序列 数据 ， 每 次 生成 一 个 时 间 步 。 这 可 以 应 用 于 文本 生成 ， 也 可 应 用 于 逐个 
音符 的 音乐 生成 或 其 他 任何 类 型 的 时 间 序 列 数据 。 
= DeepDream 的 工作 原理 : 通过 输入 空间 中 的 梯度 上 升 将 卷 积 神经 网 络 的 层 激活 最 大 化 。 
" 如 何 实现 风格 迁移 ， 即 将 内 容 图 像 和 风格 图 像 组 合 在 一 起 ， 并 产生 有 趣 的 效果 。 
= 什么 是 对 抗 式 生成 网 络 (GAN )， 什 么 是 变 分 自 编码 器 (VAE )， 它 们 如 何 用 于 创造 新 
图 像 ， 以 及 如 何 使 用 潜在 空间 概念 向 量 进行 图 像 编 辑 。 
口 这 几 项 技术 仅 涉 及 了 这 一 快速 发 展 领域 的 基础 知识 ， 还 有 许多 内 容 等 待 你 去 探索 。 仅 生 
成 式 深度 学 习 这 一 领域 的 内 容 就 可 以 写 一 整 本 书 。 
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本 章 包括 以 下 内 容 : 

口 全 书 的 重点 

口 深度 学 习 的 局 限 性 

口 深度 学 习 、 机 需 学 习 与 人 工 智能 的 未 来 
口 在 本 领域 进一步 学 习 和 工作 的 资源 








本 书 内 容 已 经 接近 尾声 。 这 是 最 后 一 章 ， 将 会 总 结 并 回顾 本 书 的 核心 概念 ， 同 时 还 会 拓展 
你 的 视野 ， 其 内 容 超 出 你 目前 所 学 的 相对 基本 的 概念 。 学 习 深 度 学 习 和 人 工 智 能 是 一 次 旅程 ， 
读 完 本 书 只 是 旅程 的 第 一 站 。 我 希望 你 认识 到 这 一 点 ， 并 能 准备 好 独自 迈 向 下 一 步 。 

首先 我 们 将 概览 本 书 的 重要 内 容 ， 这 应 该 会 让 你 回忆 起 已 经 学 过 的 一 些 概念 。 接 下 来 ， 我 
们 将 会 概述 深度 学 习 一 些 关 键 的 局 限 性 。 想 要 正确 地 使 用 工具 ， 你 不 仅 应 该 知道 它 能 够 做 什么 ， 
还 应 该 知道 它 不 能 做 什么 。 最 后 ， 我 会 给 出 我 对 于 深度 学 习 、 机 需 学 习 和 人 工 智 能 这 些 领 域 未 
来 发 展 的 猜测 和 思考 。 如 果 你 想 从 事 基 础 研究 ， 应 该 对 这 一 部 分 特别 感 兴趣 。 本 章 最 后 列 出 了 
一 份 资源 和 策略 的 简要 清单 ， 供 你 进一步 学 习 人 工 智 能 并 掌握 最 新 进展 参考 。 


9.1 重点 内 容 回顾 
本 节 简 要 综述 了 全 书 的 重点 内 容 。 如 果 你 需要 快速 过 一 下 所 学 过 的 内 容 ， 那么 可 以 阅读 本 节 。 


9.1.1 人 工 智能 的 各 种 方法 


首先 , 深度 学 习 不 是 人 工 智 能 的 同义词 ,甚至 也 不 是 机 器 学 习 的 同义词 。 人 工 智能 ( artificial 
intelligence ) 是 一 个 古老 而 宽泛 的 领域 ， 通 常 可 将 其 定义 为 “将 认 知 过 程 自动 化 的 所 有 尝试 ”， 
换 句 话说 , 就 是 思想 的 自动 化 。 它 的 范围 非常 广泛 , 既 包括 很 基本 的 内 容 , 比如 Excel 电子 表格 ， 
也 包括 非常 高 级 的 内 容 ， 比 如 会 走路 和 说 话 的 人 形 机 器 人 。 

机 器 学 习 (machine learning ) 是 人 工 智 能 的 一 个 特殊 子 领域 ， 其 目标 是 仅 靠 观察 训练 数据 
来 自动 开发 程序 [ 即 模型 (model ) ]。 将 数据 转换 为 程序 的 这 个 过 程 叫 作 学 习 (learning )。 虽 然 
机 器 学 习 已 经 存在 了 很 长 时 间 ， 但 它 在 20 世纪 90 年 代 才 开始 取得 成 功 。 
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深度 学 习 〈 deep learming ) 是 机 带 学 习 的 众多 分 支 之 一 ， 它 的 模型 是 一 长 串 儿 何 函 数 ， 一 个 
接 一 个 地 作用 在 数据 上 。 这 些 运 算 被 组 织 成 模块 ， 叫 作 层 ( layer )。 深 度 学 习 模 型 通常 都 是 层 的 
堆 状 ,或 者 更 通俗 地 说 ， 是 层 组 成 的 图 。 这 些 层 由 权重 ( weight ) 来 参数 化 ， 权 重 是 在 训练 过 
程 中 需要 学 习 的 参数 。 模 型 的 知识 ( knowledge ) 保存 在 它 的 权重 中 ， 学 习 的 过 程 就 是 为 这 些 权 
重 找到 正确 的 值 。 

虽然 深度 学 习 只 是 机 器 学 习 的 众多 方法 之 一 ， 但 它 与 其 他 方法 并 不 处 于 同等 地 位 。 座 度 学 
习 是 突破 性 的 成 功 。 原 因 如 下 。 


9.1.2 深度 学 习 在 机 器 学 习 领域 中 的 特殊 之 处 


在 短 短 儿 年 的 时 间 里 ， 深 度 学 习 在 人 们 曾经 认为 对 计算 机 来 说 极其 困难 的 大 量 任务 上 取得 
了 巨大 的 突破 ， 特 别 是 在 机 需 感 知 领域 ， 这 一 领域 需要 从 图 像 、 视 频 、 声 音 等 输入 中 提取 有 用 
的 信息 。 给 定 足 够 多 的 训练 数据 ( 特别 是 由 人 类 正确 标记 的 训练 数据 )， 深 度 学 习 能 够 从 感知 数 
据 提 取出 人 类 能 够 提取 出 的 几乎 全 部 信息 。 因 此 ， 有 时 会 听 到 这 种 说 法 一 一 深度 学 习 已 经 解决 
了 感知 (solve perception )， 但 这 种 说 法 只 对 感知 的 狭义 定义 而 言 才 是 正确 的 。 

深度 学 习 取 得 了 前 所 未 有 的 技术 上 的 成 功 ， 以 一 己 之 力 引 发 了 第 三 次 人 工 智能 夏天 (AI 
summer )， 这 也 是 迄今 为 止 规模 最 大 的 一 次 ， 人 们 对 人 工 智能 领域 表现 出 强烈 的 兴趣 ， 投 入 大 
量 投资 并 大 肆 炒 作 。 在 本 书 的 写作 过 程 中 ,我 们 正 处 于 这 次 人 工 智能 夏天 中 。 这 一 夏天 是 否 会 
在 不 远 的 将 来 结束 ， 以 及 它 结束 后 会 发 生 什 么 ， 都 是 人 们 讨论 的 话题 。 有 一 件 事 是 确定 的 : 深 
度 学 习 已 经 为 许多 大 型 科技 公司 提供 了 巨大 的 商业 价值 ， 并 且 实 现 了 人 类 水 平 的 语音 识别 、 智 
能 助理 、 人 类 水 平 的 图 像 分 类 、 极 大 改进 的 机 器 翻译 ,等 等 ， 这 与 之 前 的 人 工 智能 夏天 形成 了 
鲜明 对 比 。 炒 作 很 可 能 会 烟消云散 ,但 深度 学 习 带 来 的 持久 经 济 影响 和 技术 影响 将 会 永远 持续 
下 去 。 从 这 个 意义 上 来 讲 ， 深 度 学 习 与 互联 网 很 类 似 : 它 可 能 在 几 年 的 时 间 里 被 夸大 炒作 ,但 
从 长 远 来 看 ， 它 仍然 是 一 场 改 变 我 们 经 济 和 生活 的 重大 革命 。 

我 对 深度 学 习 特 别 乐观 ， 因 为 即使 未 来 十 年 没有 进一步 的 技术 进展 ， 将 现 有 算法 部 署 到 所 
有 适用 的 问题 上 ， 就 能 够 带 来 大 多 数 行业 的 变革 。 深 度 学 习 就 是 一 场 革命 ， 目 前 正 以 惊人 的 速 
度 快速 发 展 ， 这 得 益 于 在 资源 和 人 力 上 的 指数 式 投资 。 从 我 的 立场 来 看 ， 未 来 很 光明 ， 尽 管 短 
期 期 望 有 些 过 于 乐观 。 将 深度 学 习 部 署 到 可 能 应 用 的 所 有 领域 需要 超过 十 年 的 时 间 。 


9.1.3 ”如 何 看 待 深度 学 习 


关于 深度 学 习 ， 最 令 人 惊讶 的 是 它 非常 简单 。 十 年 前 没 人 能 预料 到 ， 通 过 梯度 下 降 来 训练 
简单 的 参数 化 模型 ， 就 能 够 在 机 器 感知 问题 上 取得 如 此 惊人 的 结果 。 现 在 事实 证 明 ， 你 需要 的 
只 是 足够 大 的 参数 化 模型 ， 并 且 在 足够 多 的 样本 上 用 梯度 下 降 来 训练 。 正 如 费 曼 曾经 对 宇宙 的 
描述 :“ 它 并 不 复杂 ， 只 是 很 多 而 已 。” 

在 深度 学 习 中 ,一切 都 是 向 量 ， 即 一 切 都 是 几何 空间 ( geometric space ) 中 的 点 (point )。 























































































































Q FEYNMAN R. Interview. The world from another point of view [Z]. Yorkshire Television, 1972. 
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首先 将 模型 输入 ( 文本、 图 像 等 ) 和 目标 向 量化 (vectorize )， 即 将 其 转换 为 初始 输入 向 量 空 
间 和 目标 向 量 空间 。 深 度 学 习 模 型 的 每 一 层 都 对 通过 它 的 数据 做 一 个 简单 的 几何 变换 。 模 型 
中 的 层 链 共 同形 成 了 一 个 非常 复杂 的 几何 变换 ， 它 可 以 分 解 为 一 系列 简单 的 几何 变换 。 这 个 
复杂 变换 试图 将 输入 空间 映射 到 目标 空间 ， 每 次 映射 一 个 点 。 这 个 变换 由 层 的 权重 来 参数 化 ， 
权重 根据 模型 当前 表现 进行 迭代 更 新 。 这 种 几何 变换 有 一 个 关键 性 质 ， 就 是 它 必须 是 可 微 的 
( differentiable )， 这 样 我 们 才能 通过 梯度 下 降 来 学 习 其 参数 。 直 观 上 来 看 ， 这 意味 着 从 输入 到 输 
出 的 几何 变形 必须 是 平滑 上 且 连 续 的 ， 这 是 一 个 很 重要 的 约束 条 件 。 

将 这 个 复杂 的 几何 变换 应 用 于 输入 数据 的 过 程 ， 可 以 用 三 维 的 形式 可 视 化 一 一 你 可 以 想象 
一 个 人 试图 将 一 个 纸 球 展 平 ， 这 个 皱 巴巴 的 纸 球 就 是 模型 初始 输入 数据 的 流 形 。 这 个 人 对 纸 球 
做 的 每 个 动作 都 类 似 于 某 一 层 执 行 的 简单 几何 变换 。 完 整 的 展 平 动作 系列 就 是 整个 模型 所 做 的 
复杂 变换 。 深 度 学 习 模 型 就 是 用 于 解 开 高 维 数据 复杂 流 形 的 数学 机 器 。 

这 就 是 深度 学 习 的 神奇 之 处 : 将 意义 转换 为 向 量 ， 转 换 为 几何 空间 ， 然 后 逐步 学 习 将 一 个 
空间 映射 到 另 一 个 空间 的 复杂 几何 变换 。 你 需要 的 只 是 维度 足够 大 的 空间 ， 以 便 捕 捉 到 原始 数 
据 中 能 够 找到 的 所 有 关系 。 

整 件 事 情 完全 取决 于 一 个 核心 思想 : 意义 来 自 于 事物 之 间 的 成 对 关系 ( 一 门 语言 的 单词 之 
间 ， 一 张 图 像 的 像素 之 间 等 )， 而 这 些 关 系 可 以 用 距离 函数 来 表示 。 但 请 注意 ， 大 脑 是 否 通过 几 
何 空间 来 实现 意义 ， 这 完全 是 另 一 个 问题 。 从 计算 的 角度 来 看 ， 处 理 向 量 空间 是 很 高 效 的 ， 但 
也 很 容易 想到 用 于 智能 的 其 他 数据 结构 ， 特 别 是 图 。 神 经 网 络 最 初 来 自 于 使 用 图 对 意义 进行 编 
人 码 这 一 思路 ， 这 也 是 它 被 命名 为 神经 网 络 ( neural network ) 的 原因 ， 相 关 的 研究 领域 曾经 被 称 
为 联结 主义 ( connectionism )。 如 今 仍 在 使 用 神经 网 络 这 一 名 称 ， 纯 粹 是 出 于 历史 原因 ， 这 是 一 
个 极 具 误导 性 的 名 称 ， 因 为 它 与 神经 或 网 络 都 没有 关系 ， 尤 其 是 和 大 脑 几 乎 没有 任何 关系 。 更 
合适 的 名 称 应 该 是 分 层 表示 学 习 (layered representations learning ) 或 层级 表示 学 习 ( hierarchical 
representations learning )， 甚 至 还 可 以 叫 深度 可 微 模 型 ( deep differentiable model ) 或 链 式 几何 变 
换 ( chained geometric transform )， 以 强调 其 核心 在 于 连续 的 几何 空间 操作 。 


9.1.4 ”关键 的 推动 技术 


目前 正在 展开 的 技术 革命 并 非 始 于 某 个 单项 突破 性 发 明 。 相 反 ， 与 其 他 革命 一 样 ， 它 是 大 
量 推 动因 素 累 积 的 结果 一 一 起 初 很 慢 ， 然 后 突然 爆发 。 对 于 深度 学 习 来 说 ， 我 们 可 以 找 出 下 列 
关键 因素 。 
口 渐进 式 的 算法 创新 ， 它 们 首先 在 20 年 内 逐渐 为 人 们 所 知 (从 反 回 传播 算法 开始 )， 然 后 
在 2012 年 之 后 更 多 的 科研 力量 涌 和 深度 学 习 领 域 ， 这 种 创新 的 速度 越 来 越 快 。 
口 大 量 可 用 的 感知 数据 ， 这 对 于 实现 在 足够 多 的 数据 上 训练 足够 大 的 模型 是 必要 的 。 它 是 
消费 者 互联 网 的 兴起 与 摩尔 定律 应 用 于 存储 介质 上 的 副 产 物 。 
口 快速 旦 高 度 并 行 的 计算 硬件 ， 且 价格 很 低 ， 特 别 是 NVIDIA 公司 生产 的 GPU。NVIDIA 
一 开始 生产 的 是 游戏 GPU， 后 来 生产 的 是 从 头 设计 用 于 深度 学 习 的 芯片 。NVIDIA 的 
CEO 黄 仁 勋 很 早 就 注意 到 了 深度 学 习 的 潜力 ， 决 定 将 公司 的 未 来 赌 在 这 上 面 。 
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D 复杂 的 软件 栈 ， 使 得 人 类 能 够 利用 这 些 计算 能 力 。 它 包括 CUDA 语言 、 像 TensorFlow 
这 样 能 够 做 自动 求 微分 的 框架 和 Keras ，Keras 让 大 多 数 人 都 可 以 使 用 深度 学 习 。 

未 来 ,深度 学 习 不 仅 会 被 专家 ( 研究 人 员 、 研 究 生 与 具有 学 习 背 景 的 工程 师 ) 使 用 ， 而 且 
会 成 为 所 有 开发 人 员工 具 箱 中 的 工具 ， 就 像 当今 的 Web 技术 一 样 。 所 有 人 都 需要 构建 智能 应 用 
程序 一 一 正如 当今 每 家 企业 都 需要 一 个 网 站 ， 每 个 产品 都 需要 智能 地 理解 用 户 生成 的 数据 。 实 
现 这 个 未 来 需要 我 们 创造 一 些 工 具 ， 它 们 可 以 让 深度 学 习 的 使 用 更 加 容易 ， 每 个 具有 基本 编程 
能 力 的 人 都 可 以 使 用 。Keras 是 朝 着 这 个 方向 迈 出 的 第 一 大 步 。 


9.1.5 ”机 器 学 习 的 通用 工作 流程 


我 们 已 经 拥有 非常 强大 的 工具 ， 能 够 创建 将 任何 输入 空间 映射 到 任何 目标 空间 的 模型 ， 这 
非常 好 ,但 机 器 学 习 工 作 流 程 的 难点 通常 是 设计 并 训练 这 种 模型 之 前 的 工作 ( 对 于 生产 模型 而 言 ， 
也 包括 设计 和 训练 这 种 模型 之 后 的 工作 )。 理 解 问题 领域 从 而 能 够 确定 想 要 预测 什么 、 需 要 哪些 
数据 以 及 如 何 衡 量 成 功 ， 这 些 都 是 所 有 成 功 的 机 器 学 习 应 用 的 前 提 ， 而 Keras 和 TensorFlow 等 
高 级 工具 是 无 法 帮 你 解决 这 些 问 题 的 。 提 醒 一 下 ， 第 4 章 介绍 过 典型 的 机 需 学 习 工 作 流程 ， 下 
面 我 们 来 快速 回顾 总 结 一 下 。 
(1) 定义 问题 : 有 哪些 数据 可 用 ? 你 想 要 预测 什么 ”你 是 否 需要 收集 更 多 数据 或 雇 人 为 数据 
集 手 动 添加 标签 ? 

(2) 找到 能 够 可 靠 评估 目标 成 功 的 方法 。 对 于 简单 任务 ， 可 以 用 预测 精度 ， 但 很 多 情况 都 需 
要 与 领域 相关 的 复杂 指标 。 

(3) 准备 用 于 评估 模型 的 验证 过 程 。 训 练 集 、 验 证 集 和 测试 集 是 必须 定义 的 。 验 证 集 和 测试 
集 的 标签 不 应 该 泄漏 到 训练 数据 中 。 举 个 例子 ， 对 于 时 序 预测 ， 验 证 数据 和 测试 数据 的 
时 间 都 应 该 在 训练 数据 之 后 。 

(4) 数据 向 量化 。 方 法 是 将 数据 转换 为 向 量 并 预 处 理 ， 使 其 更 容易 被 神经 网 络 所 处 理 ( 数据 

标准 化 等 )。 

(5) 开发 第 一 个 模型 ， 它 要 打败 基于 常识 的 简单 基准 方法 ， 从 而 表明 机 器 学 习 能 够 解决 你 的 

问题 。 事 实 上 并 非 总 是 如 此 ! 
(6) 通过 调节 超 参数 和 添加 正则 化 来 逐步 改进 模型 架构 。 仅 根据 模型 在 验证 集 (不 是 测试 集 
或 训练 集 ) 上 的 性 能 来 进行 更 改 。 请 记 住 ， 你 应 该 先 让 模型 过 拟 合 〈 从 而 找到 比 你 的 需 
求 更 大 的 模型 容量 )， 然 后 才 开 始 添加 正则 化 或 降低 模型 尺寸 。 

(7) 调节 超 参 数 时 要 小 心 验证 集 过 拟 合 ， 即 超 参 数 可 能 会 过 于 针对 验证 集 而 优化 。 我 们 保留 
一 个 单独 的 测试 集 ， 正 是 为 了 避免 这 个 问题 ! 


9.1.6 ”关键 网 络 架构 


你 应 该 熟悉 以 下 三 种 网 络 架 构 : 密集 连接 网 络 、 卷 积 网 络 和 循环 网 络 。 每 种 类 型 的 网 络 都 
针对 于 特定 的 输入 模式 , 网 络 架构 ( 密集 网 络 、 卷 积 网 络 、 循 环 网 络 ) 中 包含 对 数据 结构 的 假设 ， 
即 搜索 良好 模型 所 在 的 假设 空间 。 某 种 架构 能 否 解决 某 个 问题 ， 这 完全 取决 于 数据 结构 与 网 络 
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架构 的 假设 之 间 的 匹配 度 。 
这 些 不 同 的 网 络 类 型 组 合 起 来 ， 很 容易 实现 更 大 的 多 模式 网 络 ， 就 像 组 合 乐高 积木 一 样 。 
某 种 程度 上 来 说 ， 深 度 学 习 的 层 就 是 信息 处 理 的 乐高 积木 。 我 们 来 快速 看 一 下 输入 模式 与 适当 
的 网 络 架构 之 间 的 对 应 关系 。 
口 向 量 数据 : 密集 连接 网 络 (Dense 层 )。 
口 图 像 数据 : 二 维 卷 积 神经 网 络 。 
口 声音 数据 〈 比 如 波形 ) : 一 维 卷 积 神经 网 络 ( 首选 ) 或 循环 神经 网 络 。 
口 文本 数据 : 一 维 卷 积 神经 网 络 (首选 ) 或 循环 神经 网 络 。 
口 时 间 序 列 数据 : 循环 神经 网 络 (首选 ) 或 一 维 卷 积 神 经 网 络 。 
口 其 他 类 型 的 序列 数据 : 循环 神经 网 络 或 一 维 卷 积 神经 网 络 。 如 果 数 据 顺 序 非 常 重要 ( 比 
如 时 间 序 列 ， 但 文本 不 是 )， 那 么 首选 循环 神经 网 络 。 
口 视频 数据 : 三维 卷 积 神经 网 络 ( 如 果 你 需要 捕捉 运动 效果 ), 或 者 帧 级 的 二 维 神经 网 络 ( 用 
于 特征 提取 ) + 循环 神经 网 络 或 一 维 卷 积 神经 网 络 ( 用 于 人 处理 得 到 的 序列 )。 
口 立体 数据 : 三 维 卷 积 神经 网 络 。 
下 面 快速 回顾 一 下 每 种 网 络 架 构 的 特点 。 


1. 密集 连接 网 络 

密集 连接 网 络 是 Dense 层 的 堆 琶 ， 它 用 于 处 理 向 量 数据 ( 向 量 批 量 )。 这 种 网 络 假设 输入 
特征 中 没有 特定 结构 : 之 所 以 叫 作 密集 连接 ， 是 因为 Dense 层 的 每 个 单元 都 和 其 他 所 有 单元 相 
连接 。 这 种 层 试图 映射 任意 两 个 输入 特征 之 间 的 关系 ， 它 与 二 维 卷 积 层 不 同 ， 后 者 仅 查 看 局 部 
关系 。 

密集 连接 网 络 最 常用 于 分 类 数据 ( 比如 输入 特征 是 属性 的 列表 )， 比 如 第 3 章 的 波士顿 房价 
数据 集 。 它 还 用 于 大 多 数 网 络 最 终 分 类 或 回归 的 阶段 。 例 如 ， 第 5 章 介 绍 的 卷 积 神经 网 络 ， 最 
后 通常 是 一 两 个 Dense 层 ， 第 6 章 的 循环 神经 网 络 也 是 如 此 。 

请 记 住 : 对 于 二 分 类 问题 (binary classification )， 层 堆 茎 的 最 后 一 层 是 使 用 sigmoia 激活 
且 只 有 一 个 单元 的 Dense 层 ， 并 使 用 binary_crossentropy 作为 损失 。 目 标 应 该 是 0 或 1。 


from keras import models 
from keras import layers 






















































































model = models.Sequential () 

model.add(layers.Dense(32, activation='relu', input_shape= (num input_features,))) 
model.add (layers.Dense(32, activation='relu')) 

model.add(layers.Dense(1, activation='sigmoid')) 


model.compile(optimizer='rmsprop', loss='binary_crossentropy') 


对 于 单 标签 多 分 类 问题 ( single-label categorical classification， 每 个 样本 只 有 一 个 类 别 ， 不 
会 超过 一 个 )， 层 堆 县 的 最 后 一 层 是 一 个 Dense 层 ， 它 使 用 softmax 激活 ， 其 单元 个 数 等 于 类 
别 个 数 。 如 果 目 标 是 one-hot 编码 的 ， 那 么 使 用 categorical_crossentropy 作为 损失 ; 如 
果 目 标 是 整数 ， 那 么 使 用 sparse_categorical_crossentropy 作为 损失 。 
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model = models.Sequential () 
model.add (layers.Dense(32, activation='relu', input_shape=(num input_features,))) 
model.add (layers.Dense(32, activation='relu')) 
model.add (layers.Dense(num classes, activation='softmax')) 
model .compile(optimizer='rmsprop', loss='categorical crossentropy') 


对 于 多 标签 多 分 类 问题 ( multilabel categorical classification， 每 个 样本 可 以 有 多 个 类 别 )， 


层 堆肥 的 最 后 一 层 是 一 个 Dense 层 ， 它 使 用 sigmoia 激活 ， 其 单元 个 数 等 于 类 别 个 数 ， 并 使 











用 binary_crossentropy 作为 损失 。 目 标 应 该 是 hot 编码 的 。 


model 
model 
model 
model 


model 


= models.Sequential () 

.add (layers.Dense(32, activation='relu', input_shape=(num input_features,))) 
.add (layers.Dense(32, activation='relu')) 

.add (layers.Dense (num classes, activation='sigmoid')) 


.Compile(optimizer='rmsprop', loss='binary_crossentropy') 


对 于 连续 值 癌 量 的 回归 (regression ) 问题 ， 层 堆 二 的 最 后 一 层 是 一 个 不 人 带 激 活 Dense 层 ， 
其 单元 个 数 等 于 你 要 预测 的 值 的 个 数 (通常 只 有 一 个 值 ， 比 如 房价 )。 有 几 种 损失 可 用 于 回归 问 
题 ， 最 常见 的 是 mean_squared_error ( 均 方 误差 ，MSE ) 和 mean_absolute_error (平均 


绝对 误差 ， 


model 


model. 
model. 
model. 


model. 





MAE )。 


= models.Sequential () 

add (layers.Dense(32, activation='relu', input_shape= (num input_features,))) 
add (layers.Dense(32, activation='relu')) 

add (layers.Dense (num values)) 


compile(optimizer='rmsprop', loss='mse') 


2. 卷 积 神经 网 络 
卷 积 层 能 够 查看 空间 局 部 模式 ， 其 方法 是 对 输入 张 量 的 不 同 空间 位 置 ( 图 块 ) 应 用 相同 的 


几何 变换 。 





这 样 得 到 的 表示 具有 平移 不 变性 ， 这 使 得 卷 积 层 能 够 高 效 利用 数据 ， 并 且 能 够 高 度 








模块 化 。 这 个 想法 适用 于 任何 维度 的 空间 ,包括 一 维 (序列 )、 二 维 ( 图像 )、 三 维 (立体 数据 ) 等 。 
你 可 以 使 用 conv1D 层 来 处 理 序 列 ( 特别 是 文本 ， 它 对 时 间 序 列 的 效果 并 不 好 ， 因 为 时 间 序 列 





























通常 不 满足 平移 不 变 的 假设 )， 使 用 conv2D 层 来 处 理 图 像 ， 使 用 conv3D 层 来 处 理 立体 数据 。 





卷 积 神经 网 络 或 卷 积 网 络 是 卷 积 层 和 最 大 池 化 层 的 堆 释 , 池 化 层 可 以 对 数据 进行 空间 下 采样 ， 
这 么 做 有 两 个 目的 : 随 着 特征 数量 的 增 大 ,我们 需要 让 特征 图 的 尺寸 保持 在 合理 范围 内 ; 让 后 面 


的 卷 积 层 外 























bE 够 “看 到 ”输入 中 更 大 的 空间 范围 。 卷 积 神经 网 络 的 最 后 通常 是 一 个 Flatten 运算 





或 全 局 池 化 层 ， 将 空间 特征 图 转换 为 向 量 ， 然 后 再 是 Dense 层 ， 用 于 实现 分 类 或 回归 。 


we 
注 筷 ， 





大 部 分 (或 者 全 部 ) 普通 卷 积 很 可 能 不 久 后 会 被 深度 可 分 离 卷 积 ( depthwise separable 


convolution，SeparableConv2D 层 ) 所 替代 ， 后 者 与 前 者 等 效 ， 但 速度 更 快 、 表 示 效 率 更 高 。 


对 于 三 维 、 








二 维和 一 维 的 输入 来 说 都 是 如 此 。 如 果 你 从 头 开始 构建 一 个 新 网 络 ， 那 么 一 定 要 使 用 





深度 可 分 离 卷 积 。Separableconv2D 层 可 直接 替代 conv2D 层 ， 得 到 一 个 更 小 、 更 快 的 网 络 ， 
在 任务 上 的 表现 也 更 好 。 
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一 个 常见 的 图 像 分 类 网 络 如 下 所 示 ( 本 例 是 多 分 类 )。 


model = models.Sequential () 
model.add (layers.SeparableConv2D(32, 3, activation='relu', 
input_shape=(height, width, channels))) 
model.add (layers.SeparableConv2D(64, 3, activation='relu')) 
model.add (layers .MaxPooling2D(2)) 


model.add (layers.SeparableConv2D(64, 3, activation='relu')) 
model.add (layers.SeparableConv2D(128, 3, activation='relu')) 
model.add (layers .MaxPooling2D (2)) 








model.add (layers.SeparableConv2D(64, 3, activation='relu')) 
model.add (layers.SeparableConv2D(128, 3, activation='relu')) 
model.add (layers.GlobalAveragePooling2D()) 





model.add(layers.Dense(32, activation='relu')) 
model.add (layers.Dense (num classes, activation='softmax')) 


model.compile(optimizer='rmsprop', loss='categorical_ crossentropy') 


3. 循环 神经 网 络 

循环 神经 网 络 ( RNN，recurrent neural network ) 的 工作 原理 是 ， 对 输入 序列 每 次 处 理 一 个 
时 间 步 ， 并 且 自 始 至 终 保存 一 个 状态 〈state， 这 个 状态 通常 是 一 个 向 量 或 一 组 向 量 ， 即 状态 几 
何 空间 中 的 点 )。 如 果 序 列 中 的 模式 不 具有 时 间 平 移 不 变性 〈 比如 时 间 序 列 数据 ， 最 近 的 过 去 比 
遥远 的 过 去 更 加 重要 )， 那 么 应 该 优先 使 用 循环 神经 网 络 ， 而 不 是 一 维 卷 积 神 经 网 络 。 

Keras 中 有 三 种 RNN 层 : SimpleRNN、GRU 和 LSTM。 对 于 大 多 数 实 际 用 途 ， 你 应 该 使 用 
GRU 或 LSTM。 两 者 中 LSTM 更 加 强大 ， 计 算 代 价 也 更 高 。 你 可 以 将 GRU 看 作 是 一 种 更 简单 、 计 
算 代 价 更 小 的 替代 方法 。 

想 要 将 多 个 RNN 层 逐 个 堆 释 在 一 起 ， 最 后 一 层 之 前 的 每 一 层 都 应 该 返回 输出 的 完整 序列 
(每 个 输入 时 间 步 都 对 应 一 个 输出 时 间 步 )。、 如 果 你 不 再 堆 羞 更 多 的 RNN 层 ， 那 么 通常 只 返回 
后 一 个 输出 ， 其 中 包含 关于 整个 序列 的 信息 。 

下 面 是 一 个 单 层 RNN 层 ， 用 于 向 量 序列 的 二 分 类 。 


model = models.Sequential () 
model.add (layers.LSTM(32, input_shape= (num timesteps, num features))) 
model.add (layers.Dense(num classes, activation='sigmoid')) 













































































model.compile(optimizer='rmsprop', loss='binary_crossentropy') 


下 面 是 RNN 层 的 堆 琶 ,用 于 向 量 序列 的 二 分 类 。 


model = models.Sequential () 

model.add (layers.LSTM(32, return_ sequences=True, 
input_shape= (num timesteps, num features))) 

model.add (layers.LSTM(32, return_ sequences=True)) 

model .add (layers .LSTM (32)) 

model.add (layers.Dense(num classes, activation='sigmoid')) 








model.compile(optimizer='rmsprop', loss='binary_crossentropy') 
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9.1.7 ”可 能 性 空间 








你 想 要 用 深度 学 习 来 做 什么 ? 请 记 住 ， 构 建 深 er 
合 在 一 起 ， 基 本 上 可 以 在 任意 数据 之 间 建 立 映 射 ， 前 提 是 拥有 合适 的 训练 数据 ， 同 时 这 种 映射 
可 以 通过 具有 合理 复杂 度 的 连续 几何 变换 来 实现 。 可 能 性 空间 是 无 限 的 。 本 节 将 会 用 几 个 例子 








来 激发 你 的 思考 ， 
的 任务 。 











思考 除 基本 的 分 类 和 回归 任务 之 外 的 可 能 性 ， 这 二 者 一 直 是 机 带 学 习 最 基本 





下 面 是 我 提 到 的 应 用 领域 ,我 将 其 按 输入 模式 和 输出 模式 进行 了 分 类 。 请 注意 ， 其 中 不 少 
应 用 扩展 了 可 能 性 的 范围 。 虽 然 在 所 有 这 些 任务 上 都 可 以 训练 一 个 模型 ， 但 在 某 些 情况 下 ， 这 
样 的 模型 可 能 无 法 泛 化 到 训练 数据 之 外 的 数据 。9.2 节 和 9.3 节 将 会 讨论 未 来 可 以 如 何 突破 这 些 





局 限 。 








口 将 向 量 数据 映射 到 向 量 数据 

” 预测 性 医疗 保健 : 将 患者 医疗 记录 映射 到 患者 治疗 效果 的 预测 。 

”行为 定向 : 将 一 组 网 站 属性 映射 到 用 户 在 网 站 上 所 花费 的 时 间 数 据 。 

”产品 质量 控制 : 将 与 某 件 产品 制 成 品 相关 的 一 组 属性 映射 到 产品 明年 会 坏 掉 的 概率 。 
口 将 图 像 数据 映射 到 向 量 数据 

”医生 助手 : 将 医学 影像 幻灯 片 映射 到 是 否 存 在 肿瘤 的 预测 。 

” 自动 驾驶 车 辆 : 将 车 载 摄像 机 的 视频 画面 映射 到 方向 盘 的 角度 控制 命令 

” 棋盘 游戏 人 工 智能 : 将 围棋 和 象棋 棋盘 映射 到 下 一 步 走 棋 。 

”饮食 助手 : 将 食物 照片 映射 到 食物 的 卡路里 数量 。 

”年龄 预测 : 将 自拍 照片 映射 到 人 的 年 龄 。 
数据 

” 天 气 预报 : 将 多 个 地 点 天 气 数据 的 时 间 序 列 映射 到 某 地 下 周 的 天 气 数据 。 

” 脑 机 接口 : 将 脑 磁 图 (MEG ) 数据 的 时 间 序 列 映射 到 计算 机 命令 。 

=” 行为 定向 : 将 网 站 上 用 户 交 互 的 时 间 序列 映射 到 用 户 购 买 某 件 商品 的 概率 。 
口 将 文本 映射 到 文本 

”智能 回复 : 将 电子 邮件 映射 到 合理 的 单行 回复 。 

”回答 问题 : 将 常识 问题 映射 到 答案 

”生成 摘要 : 将 一 篇 长 文章 映射 到 文章 的 简短 摘要 。 


















































口 将 图 像 映射 到 文本 
”图 像 描述 : 将 图 像 映射 到 描述 图 像 内 容 的 简短 说 明 。 
口 将 文本 映射 到 图 像 





”条 件 图 像 生 成 : 将 简短 的 文字 描述 映射 到 与 这 段 描述 相 匹配 的 图 像 。 
”标识 生成 /选择 : 将 公司 的 名 称 和 描述 映射 到 公司 标识 。 

口 将 图 像 映射 到 图 像 
” 超 分 辨 率 : 将 缩小 的 图 像 映射 到 相同 图 像 的 更 高 分 辩 率 版 本 。 
”视觉 深 度 感知 : 将 室内 环境 的 图 像 映 射 到 深度 预测 图 。 
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口 将 图 像 和 文本 映射 到 文本 
" 视觉 问答 : 将 图 像 和 关于 图 像 内 容 的 自然 语言 问题 映射 到 自然 语言 答案 。 
口 将 视频 和 文本 映射 到 文本 
" 视频 问答 : 将 短视 频 和 关于 视频 内 容 的 自然 语言 问题 映射 到 自然 语言 答案 。 
几乎 是 一 切 凤 有 可 能 ， 但 不 完全 是 一 切 。 下 一 节 我 们 将 会 看 到 深度 学 习 不 能 做 什么 。 


9.2 深度 学 习 的 局 限 性 


对 于 深度 学 习 可 以 实现 的 应 用 ， 其 可 能 性 空间 几乎 是 无 限 的 。 但 是 ， 对 于 当前 的 深度 学 习 
技术 ， 许 多 应 用 是 完全 无 法 实现 的 ， 即 使 拥有 大 量 人 工 标注 的 数据 也 无 法 实现 。 比 如 说 ， 你 可 
以 收集 一 个 数据 集 ， 其 中 包含 数 十 万 条 ( 甚至 上 百 万 条 ) 由 产品 经 理 编 写 的 软件 产品 功能 的 英 
文 说 明 ， 还 包含 由 一 个 工程 师 团 队 开 发 的 满足 这 些 要 求 的 相应 源 代 码 。 即 使 有 了 这 些 数据 ， 你 
也 无 法 训练 一 个 读 取 产品 说 明 就 能 生成 相应 代码 库 的 深度 学 习 模 型 。 这 只 是 众多 例子 中 的 一 个 。 
一 般 来 说 ,任何 需要 推理 ( 比如 编程 或 科学 方法 的 应 用 )、 长 期 规划 和 算法 数据 处 理 的 东西 ,无 
论 投 入 多 少数 据 ， 深 度 学 习 模 型 都 无 法 实现 。 即 使 是 排序 算法 ， 用 深度 神经 网 络 来 学 习 也 是 非 
常 困难 的 。 

这 是 因为 深度 学 习 模 型 只 是 将 一 个 向 量 空间 映射 到 另 一 个 向 量 空间 的 简单 而 又 连续 的 几何 
变换 链 。 它 能 做 的 只 是 将 一 个 数据 流 形式 映射 到 另 一 个 流 形 了， 前提 是 从 站 到 了 存在 可 学 习 的 
连续 变换 。 深 度 学 习 模 型 可 以 被 看 作 一 种 程序 ， 但 反 过 来 说 ， 大 多 数 程序 都 不 能 被 表示 为 深度 
学 习 模型 。 对 于 大 多 数 任务 而 言 ， 要 人 么 不 存在 相应 的 深度 神经 网 络 能 够 解决 任务 ， 要么 即使 存 
在 这 样 的 网 络 ， 它 也 可 能 是 不 可 学 习 的 (learnable )。 后 一 种 情况 的 原因 可 能 是 相应 的 几何 变换 
过 于 复杂 ， 也 可 能 是 没有 合适 的 数据 用 于 学 习 。 

通过 堆 县 更 多 的 层 并 使 用 更 多 训练 数据 来 扩展 当前 的 次 度 学习 技 术 ， 只 能 在 表面 上 缓解 一 
些 问题 ， 无 法 解决 更 根本 的 问题 ， 比 如 深度 学 习 模型 可 以 表示 的 内 容 非常 有 限 ， 比 如 大 多 数 你 
想 要 学 习 的 程序 都 不 能 被 表示 为 数据 流 形 的 连续 几何 变形 。 


9.2.1 将 机 器 学 习 模型 拟人 化 的 风险 


当代 人 工 智 能 有 一 个 实 实在 在 的 风险 ， 那 就 是 人 们 误解 了 深度 学 习 模 型 的 作用 ， 并 高 佑 了 
它们 的 能 力 。 人 类 的 一 个 基本 特征 就 是 我 们 的 心智 理论 : 我 们 倾向 于 将 意图 、 信 和 念 和 知识 投射 
到 身边 的 事物 上 。 在 石头 上 画 一 个 笑脸 ， 石 头 就 突然 变 得 “快乐 ”了 一 一 在 我 们 的 意识 中 。 将 
人 类 的 这 个 特征 应 用 于 深度 学 习 ， 举 个 例子 ， 如 果 我 们 能 够 大 致 成 功 训练 一 个 模型 来 生成 描述 
图 像 的 说 明文 字 ， 我 们 就 会 相信 这 个 模型 能 够 “理解 ”图 像 内 容 和 它 生成 的 说 明文 字 。 然 后 ， 
如 果 某 张 图 像 与 训练 数据 中 的 那 一 类 图 像 略 有 不 同 ， 并 导致 模型 生成 非常 荒 雇 的 说 明文 字 ， 我 
们 就 会 感到 很 惊讶 ( 见 图 9-1 )。 

































































男孩 拿 着 一 根 棒球 棱 
图 9-1 基于 深度 学 习 的 图 像 描 述 系统 的 失败 案例 
对 抗 样本 尤其 能 够 突出 说 明 这 一 点 。 对 抗 样本 是 深度 学 习 网 络 的 输入 样本 ， 其 日 的 在 于 其 











骗 模 型 对 它们 进行 错误 归 类 。 比 如 你 已 经 知道 ， 在 输入 空间 中 进行 梯度 上 升 ， 可 以 生成 能 够 让 
卷 积 神经 网 络 某 个 过 滤器 激活 最 大 化 的 输入 ， 这 正 是 第 5 草 介 绍 的 过 滤 需 可 视 化 技术 的 基本 原 
理 ， 也 是 第 8 章 DeepDream 算法 的 基本 原理 。 与 此 类 似 ， 通 过 梯度 上 升 ， 你 也 可 以 对 图 像 稍 做 
修改 ， 使 其 能 够 将 某 一 类 别 的 类 别 预 测 最 大 化 。 将 长 臂 狼 的 梯度 添加 到 一 张 能 猫 照片 中 ， 我 们 
可 以 让 神经 网 络 将 这 个 熊猫 归 类 为 长 臂 猿 ( 见 图 9-2 )。 这 既 表 明了 这 些 模型 的 脆弱 性 ， 也 表明 
这 些 模型 从 输入 到 输出 的 映射 与 人 类 感知 之 间 的 深刻 差异 。 


\ GD ~ G0) 




















长 臂 猿 
类 别 的 梯度 






对 抗 样本 








图 9-2 一 个 对 抗 样本 : 图 像 中 难以 察觉 的 变化 可 能 会 完全 改变 模型 对 图 像 的 分 类 
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简 而 言 之 ， 深 度 学 习 模 型 并 不 理解 它们 的 输入 ， 至 少 不 是 人 类 所 说 的 理解 。 我 们 自己 对 图 
像 、 声 音 和 语言 的 理解 是 基于 我 们 作为 人 类 的 感觉 运动 体验 。 机 咒 学 习 模 型 无 法 获得 这 些 体验 ， 
因此 也 就 无 法 用 与 人 类 相似 的 方式 来 理解 它们 的 输入 。 通 过 对 输入 模型 的 大 量 训练 样本 进行 标 
记 , 我 们 可 以 让 模型 学 会 一 个 简单 几何 变换 ,这 个 变换 在 一 组 特定 样本 上 将 数据 映射 到 人 类 概念 ， 
但 这 种 映射 只 是 我 们 头脑 中 原始 模型 的 简化 。 我 们 头脑 中 的 原始 模型 是 从 我 们 作为 具 身 主体 的 
体验 发 展 而 来 的 。 机 器 学 习 模 型 就 像 是 镜子 中 的 模糊 图 像 ( 见 图 9-3 )。 
































举例 说 明 这 些 
人 脑 中 的 概念 的 带 标签 
真实 世界 具 身 人 类 体验 抽象 概念 数据 机 器 学 习 模 型 
i f (0 
— > —— > A 
洲 @ ~、 _/ 
| o.O 
? Ba 区 
不 一 定 总 能 与 人 类 心智 模型 与 训练 数据 
很 好 地 迁移 到 并 不 匹配 匹配 





现实 世界 
图 9-3 ”当前 的 机 器 学 习 模 型 : 就 像 是 镜子 中 的 模糊 影像 


作为 机 器 学 习 从 业者 ， 你 一 定 要 始终 记 住 这 一 点 ， 永 远 不 要 陷入 这 样 一 个 陷阱 ， 即 相信 神 
经 网 络 能 够 理解 它们 所 执行 的 任务 一 一 它们 并 不 理解 ， 至 少 不 是 用 我 们 可 以 理解 的 方式 。 我 们 
希望 教 神经 网 络 学 会 某 项 任务 ,但 它们 是 在 一 个 不 同 的 、 更 加 狭窄 的 任务 上 进行 训练 ， 这 个 任 
务 就 是 将 训练 输入 逐 点 映射 到 训练 目标 。 如 果 向 神经 网 络 展示 与 训练 数据 不 一 样 的 数据 ， 它 们 


可 能 会 给 出 荒 廖 的 结果 。 
9.2.2 局 部 泛 化 与 极端 泛 化 


深度 学 习 模 型 从 输入 到 输出 的 简单 几何 变形 与 人 类 思考 和 学 习 的 方式 之 间 存 在 根本 性 的 区 
别 。 区 别 不 仅 在 于 人 类 是 从 具 身 体验 中 自我 学 习 ， 而 不 是 通过 观察 显 式 的 训练 样 例 来 学 习 。 除 
了 学 习 过 程 不 同 ， 底 层 表 示 的 性 质 也 存在 根本 性 的 区 别 。 

深度 网 络 能 够 将 即时 刺激 映射 到 即时 反应 (昆虫 可 能 也 是 这 样 )， 但 人 类 能 做 的 比 这 远 远 
更 多 。 对 于 现状 、 对 于 我 们 自己 、 对 于 其 他 人 ， 我 们 都 使 用 一 个 复杂 的 抽象 模型 ， 并 可 以 利用 
这 些 模 型 来 预测 各 种 可 能 的 未 来 并 执行 长 期 规划 。 我 们 可 以 将 已 知 的 概念 融合 在 一 起 ， 来 表示 
之 前 从 未 体验 过 的 事物 ， 比 如 绘制 一 匹 穿着 牛仔 裤 的 马 ， 或 者 想象 我 们 如 果 中 了 彩票 会 做 什么 。 
这 种 处 理 假想 情况 的 能 力 ， 将 我 们 的 心智 模型 空间 扩展 到 远 远 超出 我 们 能 够 直接 体验 的 范围 ， 
让 我 们 能 够 进行 抽象 和 推理 ， 这 种 能 力 可 以 说 是 人 类 认 知 的 决定 性 特征 。 我 将 其 称 为 极端 泛 化 ， 
即 只 用 很 少 的 数据 ， 甚 至 没有 新 数据 ， 就 可 以 适应 从 未 体验 过 的 新 情况 的 能 力 。 

这 与 深度 网 络 的 做 法 形成 了 鲜明 对 比 ， 我 将 后 者 称 为 局 部 泛 化 ， 如 图 9-4 所 示 。 深 度 网 络 











































































































276 第 9 章 总 结 





执行 从 输入 到 输出 的 映射 
立刻 变 得 没有 意义 。 比 如 





， 如 果 新 的 输入 与 网 络 训练 时 所 见 到 的 输入 稍 有 不 同 ， 这 种 映射 就 会 


， 思 考 这 样 一 个 问题 ， 想 要 学 习 让 火箭 登陆 








日 球 的 正确 的 发 射 参 数 。 





如 果 使 用 深度 网 络 来 完成 这 个 任务 ， 并 用 监督 学 习 或 强化 学 习 来 训练 网 络 ， 那 么 我 们 需要 输入 
上 千 次 、 甚 至 上 百 万 次 发 射 试验 ， 也 就 是 说 ， 我 们 需要 为 它 提供 输入 空间 的 密集 采样 ， 以 便 它 
能 够 学 到 从 输入 空间 到 输出 空间 的 可 靠 映射 。 相 比 之 下 ， 我 们 人 类 可 以 利用 抽象 能 力 提 出 物理 
模型 ( 火箭 科学 )， 并 且 只 用 一 次 或 几 次 试验 就 能 得 到 让 火箭 登陆 月 球 的 精确 解决 方案 。 同 样 ， 
如 果 你 开发 一 个 能 够 控制 人 体 的 深度 网 络 , 并 且 和 希望 它 学 会 在 城市 里 安全 行走 ,不 会 被 汽车 撞 上 ， 
那么 这 个 网 络 不 得 不 在 各 种 场景 中 死亡 数 千 次 ， 才 能 推断 出 汽车 是 危险 的 ， 并 做 出 适当 的 舱 避 
行为 。 将 这 个 网 络 放 到 一 个 新 城市 ， 它 将 不 得 不 重新 学 习 已 知 的 大 部 分 知识 。 但 人 类 不 需要 死 
亡 就 可 以 学 会 安全 行为 ， 这 也 要 归功 于 我 们 对 假想 情景 进行 抽象 建 模 的 能 















































同一 组 数据 点 
或 体验 。 
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局 部 泛 化 极端 泛 化 
模式 识别 的 通过 抽象 和 推理 
泛 化 能 实现 的 泛 化 能 





图 9-4 局 部 泛 化 与 极端 泛 化 
我 们 在 机 器 感知 方面 取得 了 进展 ,但 离 达 到 人 类 水 平 的 人 工 智 能 仍然 很 通 远 。 
进行 局 部 汉化， 只 能 适应 与 过 去 数据 类 似 的 新 情况 ， 而 人 类 的 认 知 能 够 进行 极 
适应 全 新 情况 并 为 长 期 的 未 来 情况 做 出 规划 。 





区 快 
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9.2.3 


小 结 





我 们 应 该 记 住 以 下 内 容 : 到 目前 为 止 ， 深度 学 习 唯 一 的 真正 成 功 之 处 就 是 ， 给 定 大 量 的 人 
工 标 注 数 据 ， 它 能 够 使 用 连续 的 几何 变换 将 空间 关上 映 冉 到 空间 了 。 做 好 这 一 点 已 经 可 以 引起 基 
本 上 所 有 行业 的 变革 ,但 离 达 到 人 类 水 平 的 人 工 智 能 还 有 很 长 的 路 要 走 。 

想 要 突破 我 们 这 里 所 讨论 的 一 些 局 限 性 ， 并 创造 出 能 够 与 人 类 大 脑 匹敌 的 人 工 智 能 ， 我 们 
需要 抛弃 简单 的 从 输入 到 输出 的 映射 ， 转 而 研究 推理 和 抽象 。 对 各 种 情况 和 概念 进行 抽象 建 模 ， 
一 个 合适 的 基础 可 能 是 计算 机 程序 。 我 们 之 前 说 过 ， 机 带 学 习 模 型 可 以 被 定义 为 可 学 习 的 程序 。 


肛 契 
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目前 我 们 能 学 习 的 程序 只 是 所 有 程序 一 个 狭小 的 特定 子 集 。 但 如 果 我 们 能 够 以 一 种 模块 化 的 、 
可 重复 使 用 的 方式 来 学 习 任何 程序 呢 ?” 下 一 节 将 会 介绍 深度 学 习 的 未 来 之 路 可 能 是 什么 样 的 。 


9.3 深度 学 习 的 未 来 


本 节 的 内 容 更 加 带 有 推测 性 ， 其 目的 在 于 为 希望 加 入 研究 项 目 或 开始 独立 研究 的 人 开拓 视 
野 。 根 据 已 知 的 深度 网 络 的 工作 原理 、 局 限 性 及 其 研究 现状 ， 我 们 能 否 预测 未 来 一 段 时 间 内 事 
情 的 发 展 趋势 ? 下面 是 一 些 纯 个 人 想法 。 注 意 ,我 并 没有 水 唱 球 ,所 以 很 多 预测 可 能 都 无 法 实现 。 
之 所 以 分 享 这 些 预 测 ， 并 不 是 因为 我 希望 它们 在 未 来 被 证 明 是 完全 正确 的 ， 而 是 因为 这 些 预 测 
很 有 趣 ， 而 且 现 在 就 可 以 付 诸 实践 。 

从 较 高 层面 来 看 ， 我 认为 下 面 这 些 重 要 方向 很 有 前 途 。 

口 与 通用 的 计算 机 程序 更 加 接近 的 模型 ， 它 建立 在 比 当前 可 微 层 要 更 加 丰富 的 原 语 之 上 。 

这 也 是 我 们 实现 推理 和 抽象 的 方法 ， 当 前 模型 的 致命 弱点 正 是 缺少 推理 和 抽象 。 

口 使 上 一 点 成 为 可 能 的 新 学 习 形式 ， 这 种 学 习 形 式 能 够 让 模型 抛弃 可 微 变换 。 

口 需要 更 少 人 类 工程 师 参与 的 模型 。 不 停 地 调节 模型 不 应 该 是 我 们 的 工作 。 

口 更 好 地 、 系 统 性 地 重复 使 用 之 前 学 到 的 特征 和 架构 ， 比 如 使 用 可 复 用 和 模块 化 子 程序 的 
元 学 习 系统 。 

此 外 请 注意 ， 到 目前 为 止 ， 监 督学 习 已 成 为 深度 学 习 的 基本 内 容 ， 这 些 思考 并 不 仅 针对 于 
监督 学 习 ， 而 是 适用 于 任何 形式 的 机 需 学 习 ， 包 括 无 监督 学 习 、 自 监督 学 习 和 强化 学 习 。 标 签 
来 自 哪 里 或 训练 循环 是 什么 样子 ， 这 些 都 不 重要 ， 机 顺 学 习 这 些 不 同 的 分 支 是 同一 概念 的 不 同 
方面 。 我 们 来 具体 看 一 下 。 


9.3.1 ”模型 即 程序 


正如 上 一 节 所 述 ， 我 们 可 以 预测 机 需 学 习 领 域 的 一 个 必要 转型 是 ， 抛 弃 只 能 进行 纯 模 式 识 
别 并 且 只 能 实现 局 部 泛 化 的 模型 ， 转 而 研究 能 够 进行 抽象 和 推理 并 且 能 够 实现 极端 泛 化 的 模型 。 
目前 的 人 工 智 能 程序 能 够 进行 基本 形式 的 推理 ， 它 们 都 是 由 人 类 程序 员 硬 编码 的 ， 如 依赖 于 搜 
索 算 法 、 图 操作 和 形式 逻辑 的 软件 。 比 如 DeepMind 的 AlphaGo， 它 所 展示 的 大 部 分 智能 都 是 由 
专业 程序 员 设计 和 硬 编 码 的 〈 如 蒙特 卡 洛 树 搜索 )， 从 数据 中 进行 学 习 只 发 生 在 专门 的 子 模块 中 
( 价值 网 络 与 策略 网 络 )。 但 在 未 来 ， 这 样 的 人 工 智 能 系统 可 以 完全 通过 学 习 得 到 ， 不 需要 人 类 
参与 其 中 。 

如 何 才能 实现 这 一 未 来 ” 我们 来 考虑 一 个 众所周知 的 网 络 类 型 : 循环 神经 网 络 (RNN )。 
值得 注意 的 是 ，RNN 的 局 限 性 比 前 馈 网 络 要 略 小 。 这 是 因为 RNN 不 仅仅 是 几何 变换 ， 它 是 在 
for 循环 内 不 断 重复 的 几何 变换 。 时 序 for 循环 本 身 就 是 由 开发 人 员 硬 编码 的 ， 它 是 网 络 的 内 
置 假设 。 当 然 ，RNN 在 能 够 表示 的 内 容 方面 仍然 非常 有 限 ， 这 主要 是 因为 它 执行 的 每 一 步 都 是 
一 个 可 微 的 几何 变换 ， 从 一 步 到 另 一 步 都 是 通过 连续 几何 空间 中 的 点 〈 状态 向 量 ) 来 携带 信息 。 
现在 想象 一 个 神经 网 络 ， 它 用 一 种 类 似 编程 原 语 的 方式 得 到 了 增强 ， 但 网 络 并 不 是 单一 硬 编 码 
的 for 循环 ， 具 有 便 编 码 的 几何 记忆 ， 而 是 包含 大 量 的 编程 原 语 ， 模 型 可 以 自由 地 操作 这 些 原 
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语 来 扩展 其 处 理 功能 , 比如 if 分 支 、while 语句 、 变 量 创建 、 长 期 记忆 的 磁盘 存储 、 排 序 运算 符 、 
高 级 数据 结构 ( 如 列表 、 图 和 散 列 表 ) 等 。 这 种 网 络 能 够 表示 的 程序 空间 要 远 远 大 于 当前 深度 
学 习 模型 的 表示 范围 ， 其 中 某 些 程序 还 可 以 实现 优秀 的 泛 化 能 力 。 

一 方面 ， 我 们 将 不 再 使 用 硬 编码 的 算法 智能 (手工 软件 )， 另 一 方面 ,我们 也 不 再 使 用 学 到 
的 几何 智能 ( 深度 学 习 )。 相 反 ， 我 们 要 将 正式 的 算法 模块 和 几何 模块 融合 在 一 起 ， 前 者 可 以 提 
供 推 理 和 抽象 能 力 ， 后 者 可 以 提供 非 正式 的 直觉 与 模式 识别 能 力 。 整 个 系统 的 学 习 过 程 只 需要 
很 少 人 参与 ， 甚 至 不 需要 人 参与 。 

我 认为 人 工 智 能 有 一 个 与 此 相关 的 子 领 域 即将 迎 来 春天 ， 它 就 是 程序 合成 ， 特 别 是 神经 程 
序 合成 。 程 序 合 成 是 指 利 用 搜索 算法 〈 在 遗传 编程 中 也 可 能 是 遗传 搜索 ) 来 探索 可 能 程序 的 巨 
大 空间 ， 从 而 自动 生成 简单 的 程序 。 如 果 找 到 了 满足 规格 要 求 的 程序 ( 规格 要 求 通常 由 一 组 输 
入 /输出 对 提供 )， 那 么 搜索 就 会 停止 。 这 很 容易 让 人 联想 到 机 噩 学 习 : 给 定 输入 /输出 对 作为 
训练 数 据 ， 我 们 找到 一 个 程序 ， 它 能 够 将 输入 映射 到 输出 ， 还 能 够 泛 化 到 新 的 输入 。 区 别 在 于 ， 
我 们 通过 离散 的 搜索 过 程 来 生成 源 代码 ， 而 不 是 在 硬 编码 的 程序 ( 神经 网 络 ) 中 学 习 参 数值 。 

我 非常 期 待 未 来 几 年 人 们 对 这 个 子 领域 重新 燃 起 兴趣 。 我 特别 期 每 在 深度 学 习 和 程序 合成 
之 间 出 现 一 个 交叉 子 领域 ， 这 一 子 领域 不 是 用 通用 语言 来 生成 程序 ， 而 是 生成 被 大 量 丰 富 的 算 
法 原 语 ( 如 for 循环 等 ) 所 增强 的 神经 网 络 〈 几何 数据 处 理 流程 )， 见 图 9-5。 与 直接 生成 源 代 
码 相 比 ， 这 种 方法 应 该 更 加 容易 处 理 ， 也 更 加 有 用 ， 它 将 大 大 扩展 机 融 学 习 所 能 解决 问题 的 范 
围 《 即 给 定 适 当 的 训练 数据 ， 我 们 能 够 自动 生成 的 程序 空间 的 范围 ) 当代 RNN 可 以 看 作 这 种 
算法 - 几何 混合 模型 的 鼻祖 。 


























































































































任务 级 的 模块 化 程序 ， 




















能 够 即时 学 习 来 解决 数据 上 
特定 任务 全 
几何 子 程序 | | 算法 子 程序 任务 #002456 
行动 
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图 9-5 一 个 依赖 于 几何 原 语 (模式 识别 、 直 觉 ) 和 算法 原 语 ( 推理、 搜索 、 记 忆 ) 的 学 习 程 序 

















9.3.2 ”超越 反 向 传播 和 可 微 层 


如 果 机 需 学 习 模 型 变 得 更 像 程序 ， 那 么 通常 就 不 再 是 可 微 的 了 。 这 些 程序 仍然 使 用 连续 的 
几何 层 作 为 子 程序 ， 这 些 子 程序 是 可 微 的 ， 但 整个 模型 是 不 可 微 的 。 因 此 ， 使 用 反 向 传播 在 固 
定 的 硬 编码 的 网 络 中 调节 权重 值 ， 可 能 不 是 未 来 训练 模型 的 首选 方法 ， 至 少 不 会 只 用 这 种 方法 。 
我 们 需要 找到 能 够 有 效 地 训练 不 可 微 系统 的 方法 。 目 前 的 方法 包括 遗传 算法 、 进 化 策略 、 某 些 
强化 学 习 方法 和 交 蔡 方向 乘 子 法 (ADMM )。 当 然 ， 梯 度 下 降 也 不 会 被 淘汰 ， 梯 度 信 息 对 于 可 微 
的 参数 化 函数 的 最 优化 总 是 很 有 用 的 。 但 我 们 的 模型 会 变 得 越 来 越 不 满足 于 可 微 的 参数 化 函数 ， 
因此 模型 的 自动 开发 ( 即 机 器 学 习 中 的 学 习 ) 需要 的 也 不 仅仅 是 反 向 传播 。 
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此 外 ， 反 向 传播 是 端 到 端的 ， 这 对 于 学 习 良 好 的 链 式 变 换 是 很 有 用 的 ， 但 它 没有 充分 利用 
深度 网 络 的 模块 化 ， 所 以 计算 效率 很 低 。 为 了 提高 效率 ， 有 一 个 通用 的 策略 : 引入 模块 化 和 层 
次 结构 。 因 此 ， 我 们 可 以 引入 解 耦 的 训练 模块 以 及 训练 模块 之 间 的 同步 机 制 ， 并 用 一 种 层次 化 
的 方式 来 组 织 ， 从 而 使 反 向 传播 更 加 高 效 。DeepMind 最 近 关 于 合成 梯度 的 工作 就 稍稍 反映 了 
这 种 策略 。 我 希望 在 不 远 的 将 来 ， 人们 在 这 一 方向 上 能 走 得 更 远 。 我 可 以 设想 的 一 个 未 来 就 是 ， 
模型 在 全 局 上 是 不 可 微 的 〈 但 部 分 是 可 微 的 )， 我 们 使 用 一 种 有 效 的 搜索 过 程 〈 不 使 用 梯度 ) 来 
训练 (生长 ) 模型 ， 而 可 微 的 部 分 则 利用 更 高 效 版 本 的 反 向 传播 得 到 的 梯度 进行 训练 ， 其 训练 
速度 更 快 。 


9.3.3 自动 化 机 器 学 习 


未 来 ， 模 型 架构 将 是 通过 学 习 得 到 的 ， 而 不 是 由 工程 师 人 为 设计 的 。 学 习 架 构 与 使 用 更 丰 
富 的 原 语 、 类 似 程序 的 机 带 学 习 模型 是 密切 相关 的 。 

目前 ,深度 学 习 工 程 师 的 大 部 分 工作 都 是 用 Python 脚本 整理 数据 ， 然 后 花 很 长 时 间 调 节 深 
度 网 络 的 架构 和 超 参数 ， 以 得 到 一 个 有 效 模 型 。 如 果 这 名 工程 师 有 野心 ， 他 可 能 还 想得到 一 个 
最 先进 的 模型 。 毫 无 疑问 ， 这 种 方法 肯定 不 是 最 佳 的 ， 但 人 工 智能 可 以 提供 帮助 。 只 是 数据 整 
理 很 难 实现 自动 化 ,因为 这 一 步 通 常 需要 领域 知识 ,还 需要 对 工程 师 想 要 实现 的 目标 有 一 个 清晰 、 
深刻 的 理解 。 但 是 ， 超 参数 调节 是 一 个 简单 的 搜索 过 程 ， 我 们 也 知道 在 这 种 情况 下 工程 师 想 要 
实现 的 目标 ， 它 由 所 调节 网 络 的 损失 函数 来 定义 。 建 立 基 本 的 自动 化 机 器 学 习 (AutoML ) 系统 
已 经 是 很 常见 的 做 法 。 多 年 前 我 甚至 也 建立 过 自己 的 AutoML 系统 ， 用 来 说 得 Kaggle 竞赛 。 

在 最 基本 的 层面 上 ， 这 样 的 自动 化 机 器 学 习 系 统 可 以 调节 堆 友 的 层 数 、 层 的 顺序 以 及 每 一 
层 中 单元 或 过 滤器 的 个 数 。 这 通常 使 用 Hyperopt 等 库 来 实现 ， 我 们 在 第 7 章 介绍 过 。 但 我 们 还 
可 以 更 有 野心 ,尝试 从 头 开 始 学 习 合 适 的 架构 ， 让 约束 尽 可 能 少 ， 比 如 可 以 通过 强化 学 习 或 遗 
传 算法 来 实现 。 

男 一 个 重要 的 自动 化 机 带 学 习 方 向 是 联合 学 习 模 型 架构 和 模型 权重 。 我 们 每 次 尝试 一 个 略 
有 不 同 的 架构 ， 都 要 从 头 训练 一 个 新 模型 ， 这 种 方法 是 极其 低 效 的 ， 因 此 ， 真 正 强大 的 自动 化 
机 需 学 习 系统 ,在 训练 数据 上 进行 反 向 传播 来 调节 模型 特征 的 同时 , 还 能 够 不 断 调 节 其 模型 架构 。 
在 我 写 到 本 节 内 容 时 ， 这 种 方法 已 经 开始 出 现 了 。 

这 种 方法 出 现 之 后 ， 机 带 学 习 工 程 师 的 工作 并 不 会 消失 ; 相反 ,工程师 会 做 更 多 具有 创造 
价值 的 工作 。 他 们 开始 投入 更 多 精力 来 设计 可 以 真实 反映 业务 目标 的 复杂 的 损失 函数 ， 还 可 以 
深入 理解 模型 如 何 影 响 它们 所 部 署 的 数字 生态 系统 比如， 消费 模型 预测 并 生成 模型 训练 数据 
的 用 户 )， 目 前 只 有 那些 最 大 的 公司 才 有 精力 考虑 这 些 问 题 。 


9.3.4 终身 学 习 与 模块 化 子 程序 复 用 


如 果 模 型 变 得 更 加 复杂 ， 并 且 构 建 于 更 加 丰富 的 算法 原 语 之 上 ， 对 于 这 种 增加 的 复杂 度 ， 
需要 在 不 同 的 任务 之 间 实 现 更 多 的 复 用 ， 而 不 是 每 次 面 对 一 个 新 任务 或 新 数据 集 时 ， 都 从 头 开 
台 训 练 一 个 新 模型 。 许 多 数据 集 包 含 的 信息 都 不 足以 让 我 们 从 头 开 发 一 个 复杂 的 新 模型 ， 利 用 
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以 往 数据 集中 包含 的 信息 是 很 必要 的 〈 就 像 你 每 次 打开 一 本 新 书 时 ， 也 不 会 从 头 开 始 学 习 英 语 一 一 
那 是 不 可 能 的 )。 每 开始 一 个 新 任务 都 从 头 训练 模型 也 是 非常 低 效 的 ， 因 为 当前 任务 与 之 前 遇 到 
的 任务 有 很 多 重复 之 处 。 

近年 来 有 一 个 反复 出 现 的 观察 结果 值得 注意 : 训练 同一 个 模型 同时 完成 几 个 几乎 没有 联系 的 
任务 ， 这 样 得 到 的 模型 在 每 个 任务 上 的 效果 都 更 好 。 例 如 ， 训 练 同一 个 神经 机 器 翻译 模型 来 实现 
英语 到 德语 的 翻译 和 法 语 到 意大利 语 的 翻译 ， 这 样 得 到 的 模型 在 两 组 语言 上 的 表现 都 变 得 更 好 。 
同样 ， 联 合 训练 一 个 图 像 分 类 模型 和 一 个 图 像 分 割 模型 ， 二 者 共享 相同 的 卷 积 基 ， 这 样 得 到 的 模 
型 在 两 个 任务 上 的 表现 都 变 得 更 好 。 这 是 很 符合 直觉 的 : 看 似 无 关 的 任务 之 间 总 是 存在 一 些 信息 
重 倒 ， 与 仅 在 特定 任务 上 训练 的 模型 相 比 ， 联 合 模 型 可 以 获取 关于 每 项 任务 的 更 多 信息 。 

目前 ， 对 于 不 同 任务 之 间 的 模型 复 用 ， 我 们 使 用 执行 通用 功能 ( 比如 视觉 特征 提取 ) 的 模 
型 的 预 训练 权重 。 第 5 章 介 绍 过 这 种 用 法 。 未 来 我 希望 这 种 方法 的 更 一 般 的 版 本 能 够 更 加 和 常见: 
我 们 不 仅 重 复 使 用 之 前 学 到 的 特征 ( 子 模型 权重 )， 还 会 重复 使 用 模型 架构 和 训练 过 程 。 随 着 模 
型 变 得 越 来 越 像 程序 ， 我 们 将 开始 重复 使 用 程序 的 子 程 序 (program subroutine )， 就 像 重 复 使 用 
人 类 编程 语言 中 的 孔 数 和 类 那样 。 
想 想 如 今 的 软件 开发 过 程 : 每 当 工程 师 解决 了 一 个 具体 问题 ( 比如 Python 中 的 HTTP 查询 )， 
他 们 就 会 将 其 打包 成 一 个 抽象 的 、 可 复 用 的 库 。 日 后 面临 类 似 问 题 的 工程 师 可 以 搜索 现 有 的 库 ， 
然后 下 载 ， 并 在 自己 的 项 目 中 使 用 。 同 样 ， 在 未 来 ， 元 学 习 系 统 能 够 在 高 级 可 复 用 模块 的 全 局 
库 中 筛选 ， 从 而 组 合成 新 程序 。 如 果 系 统 发 现 自己 对 几 个 不 同 的 任务 都 开发 出 了 类 似 的 子 程序 ， 
那么 它 可 以 对 这 个 子 程序 提出 一 个 抽象 的 、 可 复 用 的 版 本 ， 并 将 其 存储 在 全 局 库 中 ( 见 图 9-6 )。 
这 一 过 程 可 以 实现 抽象 ， 抽 象 是 实现 极端 泛 化 的 必要 组 件 。 如 果 一 个 子 程序 在 不 同 任务 和 不 同 
领域 中 都 很 用， 我 们 可 以 说 它 对 解决 问题 的 某 些 方面 进行 了 抽象 化 (abstract )。 这 个 抽象 的 定 
义 与 软件 工程 中 的 抽象 概念 类 似 。 这 些 子 程序 可 能 是 几何 子 程序 ( 带 有 预 训练 表示 的 深度 学 习 
模块 )， 也 可 能 是 算法 子 程序 ( 更 接近 于 当代 软件 工程 师 所 操作 的 库 )。 


















































































































































抽象 子 程序 的 全 局 库 复 用 的 
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图 9-6 元 学 习 器 能够 使 用 可 复 用 原 语 (包括 算法 原 语 和 几何 原 语 ) 来 快速 开发 
针对 任务 特定 的 模型 ， 从 而 实现 极端 泛 化 
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9.3.5 ”长 期 愿景 


简 而 言 之 ， 以 下 是 我 对 机 央 学 习 的 长 期 愿景 。 

口 模型 将 变 得 更 像 程 序 ， 其 能 力 将 远 远 超出 我 们 目前 对 输入 数据 所 做 的 连续 几何 变换 。 这 
些 程序 可 以 说 是 更 加 接近 于 人 类 关于 周围 环境 和 自身 的 抽象 心智 模型 。 因 为 它们 具有 让 
富 的 算法 特性 ， 所 以 还 具有 更 强 的 泛 化 能 力 。 

口 具体 而 言 ， 模 型 将 会 融合 算法 模块 与 几何 模块 ， 前 者 提供 正式 的 推理 、 搜 索 和 抽象 能 
后 者 提供 非 正式 的 直觉 和 模式 识别 能 力 。AlphaGo ( 这 个 系统 需要 大 量 的 手动 软件 工程 

和 人 为 设计 决策 ) 就 是 这 种 符号 人 工 智能 和 几何 人 工 智 能 融合 的 一 个 早期 例子 。 

口 通过 使 用 存储 在 可 复 用 子 程序 的 全 局 库 (这 个 库 随 着 在 数 千 个 先前 任务 和 数据 集 上 学 习 

高 性 能 模型 而 不 断 进化 ) 中 的 模块 化 部 件 ， 这 种 模型 可 以 自动 成 长 (grow )， 而 不 需要 

人 类 工程 师 对 其 人 硬 编码 。 随 着 元 学 习 系 统 识别 出 经 常 出 现 的 问题 解决 模式 ， 这 些 模 式 将 

会 被 转化 为 可 复 用 的 子 程序 ( 正如 软件 工程 中 的 函数 和 类 )， 并 被 添加 到 全 局 库 中 。 这 

样 就 可 以 实现 抽象 。 

这 个 全 局 库 和 相关 的 模型 成 长 系统 能 够 实现 某 种 形式 的 与 人 类 类 似 的 极端 泛 化 : 给 定 一 

个 新 任务 或 新 情况 ， 系 统 使 用 很 少 的 数据 就 能 组 合 出 一 个 适用 于 该 任务 的 新 的 有 效 模型 ， 

这 要 归功 于 丰富 的 类 似 程序 的 原 语 ， 它 具有 很 好 的 泛 化 能 力 ， 还 要 归功 于 在 类 似 任 务 上 

的 大 量 经 验 。 按 照 同 样 的 方法 ， 如 果 一 个 人 具有 很 多 以 前 的 游戏 经 验 ， 那 么 他 可 以 很 快 

学 会 玩 一 个 复杂 的 新 视频 游戏 ， 因 为 从 先前 经 验 得 到 的 模型 是 抽象 的 、 类 似 程序 的 ， 而 

不 是 刺激 与 行动 之 间 的 简单 映射 。 

因此 ， 这 种 永久 学 习 的 模型 生长 系统 可 以 被 看 作 一 种 通用 人 工 智能 ( AGI，artificial general 

intelligence )。 但 是 ， 不 要 指望 会 出 现 奇 点 式 的 机 器 人 灾难 ， 那 纯粹 只 是 幻想 ,来自 于 人 

们 对 智能 和 技术 的 一 系列 次 刻 误解 。 不 过 对 这 种 观点 的 批判 不 属于 本 书 的 范畴 。 


9.4 了 解 一 个 快速 发 展 领域 的 最 新 进展 

作为 最 后 的 临别 语 ， 我 希望 给 你 一 些 建议 ， 让 你 在 翻 完 本 书 最 后 一 页 之 后 知道 如 何 继续 学 
习 并 更 新 知识 和 技能 。 正 如 我 们 今天 所 知道 的 ， 现 代 深 度 学 习 领 域 只 有 几 年 的 历史 ， 尽 管 它 有 
一 个 很 长 、 很 缓慢 的 史前 历史 并 长 达 数 十 年 。 自 2013 年 以 来 ， 随 着 资金 来 源 和 研究 人 数 呈 指数 
式 增长 ， 整 个 领域 目前 正在 以 狂热 的 步伐 前 进 。 你 在 本 书 学 到 的 知识 不 会 永 不 过 时 ， 这 些 知识 
也 不 是 你 职业 生涯 的 剩余 时 间 所 需要 掌握 的 全 部 内 容 。 

季 运 的 是 ， 网 上 有 大 量 免费 的 在 线 资 源 ， 你 可 以 用 来 了 解 最 新 进展 ， 还 可 以 拓展 视野 。 下 
面 介 绍 其 中 一 些 资源 。 


9.4.1 使 用 Kaggle 练习 解决 现实 世界 的 问题 

想 要 获得 现实 世界 的 经 验 ， 一 种 有 效 的 方法 是 参加 Kaggle 上 的 机 融 学 习 竞 赛 。 唯 一 的 真正 
学 习 方式 就 是 通过 实践 与 实际 写 代码 来 学 习 ， 这 也 是 本 书 的 哲学 ， 而 Kaggle 竞赛 就 是 这 一 哲学 
的 自然 延续 。 在 Kaggle 上 ,你 会 发 现 一 系列 不 断 更 新 的 数据 科学 竞赛 ,其 中 许多 都 涉及 深度 学 习 。 
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一 些 公司 想 要 在 最 具 挑 战 性 的 机 器 学 习 问 题 上 获得 新 颖 的 解决 方案 ， 就 举办 了 这 些 竞赛 ， 还 为 
顶尖 参赛 者 提供 了 相当 丰厚 的 奖金 。 

大 部 分 竞赛 的 获胜 者 都 使 用 XGBoost 库 〈 用 于 浅 层 机 器 学 习 ) 或 Keras ( 用 于 深度 学 习 )。 
所 以 你 非常 适合 参加 这 些 竞赛 ! 通过 参加 一 些 竞赛 ， 也 可 能 是 作为 团队 的 一 员 ， 你 将 会 更 
悉 本 书 所 介绍 的 一 些 高 级 最 佳 实践 的 用 法 ， 特 别 是 超 参数 优化 、 避 免验 证 集 过 拟 合 与 模型 集成 。 






































9.4.2 在 arXiv 阅读 最 新 进展 


深度 学 习 人 研究 与 某 些 其 他 科学 领域 不 同 ， 它 是 完全 公开 化 的 。 论 文 一 旦 定稿 ， 就 会 公开 发 布 供 
人 们 自由 获取 ， 而 且 许多 相关 软件 也 都 是 开源 的 。arXiv ( 读 作 archive， 其 中 X 代表 希腊 字母 xX ) 
是 物理 、 数 学 和 计算 机 科学 研究 论文 的 开放 获取 预 印 本 服务 器 。arXiv 已 经 成 为 了 解 机 器 学 习 
和 深度 学 习 最 新 进展 的 重要 方法 。 大 多 数 深度 学 习 研 究 人 员 在 完成 他 们 的 论文 后 会 立刻 上 传 到 
arXiv 上 。 这 样 他 们 可 以 插 一 面 旗 子 ， 无 需 等 待 会 议 接 收 ( 这 需要 几 个 月 ) 就 可 以 宣称 某 项 研究 
成 果 的 所 有 权 ， 鉴 于 该 领域 研究 速度 很 快 、 竞 争 很 激烈 ， 这 种 做 法 是 很 有 必要 的 。 它 还 可 以 让 这 
一 领域 快速 向 前 发 展 , 对 于 所 有 新 的 研究 成 果 , 所 有 人 都 可 以 立刻 看 到 , 并 可 以 在 其 基础 上 扩展 。 

一 个 要 命 的 缺点 是 ，arXiv 上 每 天 发 布 大 量 新 论文 ， 即 使 全 部 略 读 一 遍 也 是 不 可 能 的 。 这 些 
论文 没有 经 过 同行 评议 ， 想 要 筛选 出 重要 且 质 量 很 高 的 论文 是 很 困难 的 。 

在 噪声 中 找到 信号 很 困难 ， 而 且 正 在 变 得 越 来 越 难 。 目 前 ， 这 个 问题 还 没有 好 的 解决 方案 。 
但 有 一 些 工 具 可 以 提供 帮助 : 一 个 名 叫 arXiv Sanity Preserver 的 辅助 网 站 可 以 作为 新 论文 的 推荐 
引擎， 还 可 以 帮 你 在 深度 学 习 某 个 狭窄 的 垂直 领域 中 跟踪 最 新 进展 。 此 外 ， 你 还 可 以 使 用 谷歌 
学 术 ( Google Scholar ) 来 跟踪 你 最 喜欢 的 作者 的 出 版 物 。 


9.4.3 ”探索 Keras 生态 系统 


截至 2017 年 11 月 ，Keras 约 有 20 万 名 用 户 ， 并 且 还 在 迅速 增长 。Keras 拥有 大 量 教 程 、 指 
南 和 相关 开源 项 目 组 成 的 大 型 生态 系统 。 
口 使 用 Keras 的 主要 参考 资料 就 是 Keras 的 在 线 文档 ( https://keras.io )。Keras 的 源 代码 位 
于 GitHub 上 。 
口 你 可 以 在 Keras 的 Slack 频道 ( https://kerasteam.slack.com ) 上 寻求 帮助 并 加 入 深度 学 习 讨 论 。 
口 Keras 博客 ( https://blog.keras.io ) 提供 了 Keras 教程 以 及 其 他 与 深度 学 习 有 关 的 文章 。 
口 你 可 以 在 推 特 上 关注 我 : @fchollet。 


9.5 ”结束 语 


本 书 到 这 里 就 结束 了 ! 我 希望 你 掌握 了 关于 机 带 学 习 、 深 度 学 习 、Keras， 其 至 关于 认 知 的 
一 般 知 识 。 学 习 是 终生 的 旅程 ， 特 别 是 在 人 工 智能 领域 ,我 们 面 对 的 未 知 远 远 多 于 已 知 。 所 以 
请 继续 学 习 ， 继 续 提 问 ， 继 续 研 究 ， 永 不 止步 。 即 使 目前 已 经 取得 了 一 定 进展 ， 人 工 智 能 的 大 
多 数 基 本 问题 也 仍然 没有 答案 ， 许 多 问题 甚至 还 没有 以 正确 方式 提出 来 。 








































































































在 Ubuntu 上 安装 Keras 
及 其 依赖 








建立 深度 学 习 工 作 站 的 过 程 相当 复杂 ， 本 附录 会 详细 介绍 具体 步骤 ， 如 下 所 示 。 
(1) 安装 Python 科学 套件 ( Numpy 和 SciPy ), 并 确认 安装 了 基础 线性 代数 子 程序 (BLAS ) 库 ， 
这 样 模型 才能 在 CPU 上 快速 运行 。 
(2) 另外 再 安装 两 个 软件 包 ，HDF5 ( 用 于 保存 大 型 的 神经 网 络 文件 ) 和 Graphviz ( 用 于 将 
神经 网 络 架 构 可 视 化 )。 在 使 用 Keras 时 这 两 个 软件 包 很 有 用 。 
(3) 安装 CUDA 驱动 程序 和 cuDNN， 确保 GPU 能 够 运行 深度 学 习 代码 。 
(4) 安装 一 个 Keras 后 端 TensorFlow、CNTK 或 Theano。 
(5) 安装 Keras。 
这 个 过 程 可 能 看 起 来 有 点 麻烦 。 其 实 唯 一 的 难点 就 是 设置 GPU 支持 ， 其 他 步 又 用 几 个 命令 
就 可 以 完成 ， 只 需 几 分 钟 即 可 。 
我 们 假设 你 已 经 安装 了 全 新 的 Ubuntu， 并 配备 了 NVIDIA GPU。 开 始 之 前 ， 请 确认 你 已 经 
安装 了 pip， 并 确认 你 的 包 管 理 器 是 最 新 的 。 
$ sudo apt-get update 


$ sudo apt-get upgrade 
$ sudo apt-get install python-pip python-dev 

















Python 2 与 Python 3 的 对 比 

默认 情况 下 ，Ubuntu 在 安装 Python 包 时 使 用 Python 2 ( 比如 python-pip )。 如 果 你 想 
使 用 Python 3， 那 么 应 该 使 用 python3 前 组 代替 python。 例 如 : 

SSugdo aot get install ythons Dip ovthnon3 dev 

使 用 pip 安装 包 时 要 记 住 ， 它 默认 安装 的 是 Python 2 的 包 。 想 要 安装 Python 3 的 包 ， 
你 应 该 使 用 pip3。 


$ sudo pip3 install tensorflow-gpu 
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A.1 安装 Python 科学 套件 


如 果 你 用 的 是 Mac ,我 们 推荐 你 通过 Anaconda 安装 Python 科学 套件 。 你 可 以 在 https:/www. 
anaconda.com/download/ 下 载 Anaconda。 注 意 , 其 中 并 不 包含 HDF5 和 Graphviz, 需要 手动 安装 。 
在 Ubuntu 上 手动 安装 Python 科学 套件 的 步骤 如 下 所 示 。 

(1) 安装 BLAS 库 (这 里 安装 的 是 OpenBLAS ), 确保 你 可 以 在 CPU 上 运行 快速 的 张 量 运算 。 


$ sudo apt-get install build-essential cmake git unzip \ 
pkg-config libopenblas-dev liblapack-dev 


(2) 安装 Python 科学 套件 : Numpy、SciPy 和 Matplotlib。 无 论 是 否 做 深度 学 习 ， 如 果 想 要 
使 用 Python 进行 任意 类 型 的 机 器 学 习 或 科学 计算 ， 这 一 步 都 是 必需 的 。 


$ sudo apt-get install Python-numpy Python-scipy python-matplotlib python-yaml 
(3) 安装 HDF5。 这 个 库 最 初 由 NASA (美国 国家 航空 航天 局 ) 开发 ， 用 高 效 的 二 进 制 格式 

来 保存 数值 数据 的 大 文件 。 它 可 以 让 你 将 Keras 模型 快速 高 效 地 保存 到 磁盘 。 

$ sudo apt-get install libhdf5-serial-dev python-h5py 
(4) 安装 Graphviz 和 pydotrng， 这 -ee 以 将 Keras 模型 五 可 视 化 。 它们 对 运行 Keras 并 不 
是 必需 的 ， 所 以 你 可 以 跳 过 这 一 步 ， 在 需要 时 再 来 安装 这 些 包 。 安 装 命令 如 下 。 


$ sudo apt-get install graphviz 
$ sudo pip install pydot-ng 


(5) 安装 某 些 代码 示例 中 用 到 的 其 他 包 。 


$ sudo apt-get install Python-opencV 









































A.2 设置 GPU 支持 


使 用 GPU 并 不 是 绝对 必要 的 ， 但 我 们 强烈 推荐 使 用 GPU。 本 书 的 所 有 代码 示例 都 可 以 在 
笔记 本 电脑 的 CPU 上 运行， 但 训练 模型 有 时 可 能 需要 等 待 几 个 小 时 ， 而 在 一 个 好 的 GPU 上 则 
只 需要 几 分 钟 。 如 果 你 没有 一 块 现代 的 NVIDIA GPU， 则 可 以 跳 过 这 一 步 ， 直 接 阅 读 A.3 节 。 

想 要 用 NVIDIA GPU 做 深度 学 习 ， 需 要 同时 安装 CUDA 和 cuDNN。 

口 CUDA。 用 于 GPU 的 一 组 驱动 程序 ， 它 让 GPU 能 够 运行 底层 编程 语言 来 进行 并 行 计算 。 
DQ cuDNN, 用 于 深度 学 习 的 高 度 优化 的 原 语 库 。 使 用 cuDNN 并 在 GPU 上 运行 时 ， 通常 可 
以 将 模型 的 训练 速度 提高 50% 到 100%。 

TensorFlow 依赖 于 特定 版 本 的 CUDA 和 cuDNN 库 。 写 作 本 书 时 ， 它 使 用 的 是 CUDA 8 和 
cuDNN 6。 请 查阅 TensorFlow 网 站 ， 上 面 详细 说 明了 当前 推荐 的 版 本 。 

请 按照 以 下 步骤 操作 。 

(1) 下 载 CUDA。 对 于 Ubuntu ( 以 及 其 他 Linux 版 本 )，NVIDIA 提供 了 现成 的 安装 包 ， 可 

以 在 https://developer.nvidia.com/cuda-downloads 下 载 。 


$ wget http://developer.download.nvidia.com/compute/cuda/repos/ubuntu1604/ 
x86_64/cuda-repo-ubuntul604_ 9.0.176-1_amd64.deb 
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(2) 安装 CUDA。 最 简单 的 安装 方法 就 是 对 这 个 包 使 用 Ubuntu 的 apt 命令 。 这 样 就 可 以 在 
程序 更 新 时 使 用 apt 轻松 安装 更 新 。 
sudo dpkg -i cudqa-repo-ubuntu1604 9.0.176-1_ amd64.deb 
$ sudo apt-key adv --fetch-keys http://developer.download.nvidia.com/compute/ 
cuda/repos/ubuntul604/ x86_64/7fa2af80.pub 
$ sudo apt-get update 
$ sudo apt-get install cuda-8-0 


(3) 安装 cuDNN。 

中 注册 一 个 免费 的 NVIDIA 开发 者 账号 ( 遗憾 的 是 ， 想 要 下 载 cuDNN， 这 一 步 是 必需 
的 )， 然 后 在 https://developer.NVIDIA.com/cudnn 下 载 cuDNN ( 选择 与 TensorFlow 兼 
容 的 cuDNN 版 本 ), 与 CUDA 一 样 ,NVIDIA 也 提供 了 用 于 不 同 Linux 版 本 的 软件 包 ， 
我 们 将 使 用 针对 Ubuntu 16.04 的 版 本 。 注 意 ， 如 果 你 用 的 是 EC2 实例 ， 那 么 是 无 法 
将 cuDNN 存档 直接 下 载 到 实例 中 的 ， 你 需要 将 其 下 载 到 本 地 计算 机 上 ， 然 后 再 利用 
scp 命令 将 其 上 传 到 EC2 实例 中 。 

加 安装 cuDNN。 


$ sudo dpkg -i dpkg -i libcudnn6* .deb 





Ur 



































(4) 安装 TensorFlow。 
中 无 论 是 否 支持 GPU， 都 可 以 使 用 pip 从 PyPI 安装 TensorFlow。 安 装 不 支持 GPU 的 
TensorFlow 的 命令 如 下 。 


$ sudo pip install tensorflow 


名 安装 支持 GPU 的 TensorFlow 的 命令 如 下 。 


$ sudo pip install tensorflow-gpu 











A.3 安装 Theano (可 选 ) 


你 已 经 安装 了 TensorFlow， 所 以 无 须 安装 Theano 即 可 运行 Keras 代码 。 但 构建 Keras 模 
型 时 ， 在 TensorFlow 和 Theano 之 间 来 回 切换 有 时 会 很 有 用 。 
Theano 也 可 以 从 PyPI 安装 。 


S sudo pip install theano 

如 果 你 有 GPU， 那 么 应 该 配置 Theano 来 使 用 GPU。 你 可 以 用 下 面 这 个 命令 创建 一 个 Theano 
配置 文件 。 

nano ~/.theanorc 


然后 ， 将 下 列 配置 写 入 这 个 文件 。 
1] 





[globa 

floatx float32 
device gpu0 
[nvcc] 


fastmath = True 
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A.4 安装 Keras 


可 以 从 PyPI 安装 Keras。 


$ sudo pip install keras 


或 者 也 可 以 从 GitHub 安装 Keras。 这 么 做 的 话 ， 就 可 以 访问 keras/examples 文件 来 ， 里面 
包含 许多 示例 脚本 供 你 学 习 。 


$ git clone https://github.com/fchollet/keras 
$ cd keras 
$ sudo python setup.py install 


现在 你 可 以 尝试 运行 一 个 Keras 脚本 ， 比 如 这 个 MNIST 示例 。 

python examples/mnist_cnn.py 

注意 ， 完 整 运行 这 个 示例 可 能 需要 儿 分 钟 。 因 此 ， 在 确认 Keras 可 以 正常 运行 之 后 ， 你 可 
以 随时 强制 退出 〈 按 Ctrl-C )。 

运行 Keras 至 少 一 次 之 后 ， 就 可 以 在 ~/.keras/keras.json 找到 Keras 的 配置 文件 。 你 可 以 编 
辑 这 个 文件 ， 选 择 运行 Keras 的 后 端 : fensorflow、theano 或 cntk。 你 的 配置 文件 应 该 是 
这 样 的 。 

{ 




















"image_data_format": "channels_last", 
"epsilon": le-07, 

loantx"s "float3ad"s 

"backend": "tensorflow" 


} 
运行 examples/mnist_cnn.py 这 个 Keras 脚本 时 ， 你 可 以 在 另 一 个 shell 窗口 中 监控 GPU 利 
用 率 。 


$ watch -n 5 NVIDIA-smi -a --display=utilization 


一 切 安 装 完成 ， 蕉 喜 你 ! 现在 可 以 开始 构建 深度 学 习 应 用 了 。 


在 EC2 GPU 实例 第 运行 
Jupyter 笔记 本 














本 附录 是 一 个 分 步 指 南 ， 教 你 如 何在 AWS GPU 实例 上 运行 深度 学 习 Jupyter 笔记 本 ， 并 在 
浏览 器 中 编辑 这 些 笔记 本 。 如 果 你 的 本 地 计算 机 上 没有 GPU， 那 么 这 种 设置 非常 适合 深度 学 习 
研究。 本 指南 的 原始 版 本 ( 以 及 最 新 版 本 ) 位 于 https://blog.keras.io。 


B.1 什么 是 Jupyter 笔记 本 ， 为 什么 要 在 AWS GPU 上 运行 Jupyter 
笔记 本 

Jupyter 笔记 本 ( Jupyter notebook ) 是 一 款 Web 应 用 ， 让 你 可 以 交互 式 地 编写 和 注释 
Python 代码 。 这 种 方法 非常 适合 做 实验 、 做 研究 以 及 分 享 你 目前 的 工作 。 

许多 深度 学 习 应 用 都 是 计算 密集 型 的 ， 在 笔记 本 电脑 的 CPU 内 核 上 运行 可 能 需要 数 小 时 
甚至 数 天 的 时 间 。 在 GPU 上 运行 可 以 让 训练 和 推断 的 速度 提高 很 多 倍 (从 现代 CPU 转 到 单个 
现代 GPU， 通常 可 以 提速 $~10 倍 ) 但 你 的 本 地 计算 机 上 可 能 没有 GPU。 在 AWS 上 运行 Jupyter 
笔记 本 的 体验 与 在 本 地 计算 机 上 运行 完全 相同 ， 前 者 可 以 让 你 在 AWS 上 使 用 一 个 或 多 个 GPU。 
你 只 需 根 据 使 用 时 长 付费 ， 如 果 你 只 是 偶尔 使 用 深度 学 习 ， 那 么 这 种 方法 比 购买 自己 的 GPU 更 
划算 。 


B.2 为 什么 你 不 想 在 AWS 上 使 用 Jupyter 进行 深度 学 习 


AWS GPU 实例 的 费用 可 能 很 快 会 变 得 很 高 。 我 们 建议 使 用 的 实例 价格 是 0.90 美元 /小 
时 。 如 果 偶 尔 使 用 的 话 这 个 价格 很 合适 ， 但 如 果 你 每 天 都 要 花 几 个 小 时 运行 实验 ,那么 最 好 用 
TITANX 或 GTX 1080 Ti 搭建 你 自己 的 深度 学 习 计 算 机 。 

总 之 ， 如 果 你 没有 本 地 GPU， 或 者 不 想 安装 Keras 依赖 (特别 是 GPU 驱动 程序 )， 那 么 就 
可 以 在 EC2 上 使 用 Jupyter。 如 果 你 有 本 地 GPU， 我 们 推荐 在 本 地 计算 机 上 运行 模型 。 这 种 情 
况 请 参阅 附录 A 中 的 安装 指南 。 



































注意 ”你 需要 一 个 有 效 的 AWS 账号 。 熟 悉 AWS EC2 会 对 你 有 所 帮助 ， 但 并 不 是 必需 的 。 
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B.3 设置 AWS GPU 实例 


以 下 设置 过 程 需要 5~10 分 钟 的 时 间 。 
(1) 打开 EC2 控制 面板 (https://console.aws.amazon.com/ec2/v2 )， 点 击 Launch Instance( 创 
建 实例 ) 链接 ( 见 图 B-1 )。 


Launch Instance Actions 立 
4 


CQ Filter by tags and attributes or search by keyword 











图 B-1 EC2 控制 面板 





(2) 选择 AWS Marketplace ( AWS 市 场 ， 见 图 B-2 )， 并 在 搜索 框 中 搜索 “deep learning”( 深 
度 学 习 )。 向 下 翻 页 寻找 名 为 Deep Learning AMI Ubuntu Version 的 Amazon 系统 映像 
(AMI， 见 图 B-3 )， 选 择 它 。 























[TD Deep Learning AMI Ubuntu Version 
Wo amazon 

Mn webservices 食 食 信人 娘 食 (0)| 1.2 Previous versions | Sold by Amazon Web Services 
Quick Start $0,0059 to $16.006/hr incl EC2 charges + other AWS usage fees 
MyAMIs Linux/Unix, Ubuntu 14.04 | 64-bit Amazon Machine Image (AMI) | Updated: 

The Deep Learning AMI is a base Ubuntu image provided by 
AWS Marketplace to provide a stable, secure, and ... 
Community AMIs More info 
图 B-2 EC2 的 AWS Marketplace 图 B-3 EC2 的 深度 学 习 AMI 











(3) 选择 p2.xlarge 实例 ( 见 图 B-4 )。 这 种 实例 类 型 允许 访问 单个 GPU， 每 小 时 的 使 用 费用 
为 0.90 美元 (2017 年 3 月 的 价格 )。 





1. Choose AMI 2. Choose Instance Type 3, Configure Instance 4. Add Storage 


Step 2: Choose an Instance Type 


GPU instances g2.8xlarge 32 
国 GPU compute p2.xlarge 4 
GPU compute p2.8xlarge 32 








图 B-4 p2.xlarge 实例 





(4) 你 可 以 在 Configure Instance ( 配置 实例 )、Add Storage ( 添加 存储 )、Add Tags ( 添加 标 
签 ) 这 几 步 均 保 留 默 认 配 置 ， 但 在 Configure Security Group (配置 安全 组 ) 这 一 步 需要 
自 定义 配置 。 创 建 一 个 自 定 义 的 TCP 规则 来 允许 8888 端口 〈 见 图 B-5 )， 这 个 规则 可 以 
只 允许 你 当前 的 公共 IP 访问 (比如 你 笔记 本 电脑 的 全)， 如 果 这 种 方法 不 可 行 ， 也 可 以 
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允许 任何 人 P 访 问 (比如 0.0.0.0/0 )。 请 注意 ， 如 果 你 允许 任何 了 P 访问 8888 端口 ， 那 么 
任何 人 都 可 以 监听 你 的 实例 上 的 那个 端口 (也 就 是 你 运行 Python 笔记 本 的 位 置 )。 你 
需要 为 笔记 本 添加 密码 保护 ， 防 止 随便 某 个 陌生 人 修改 数据 ， 但 这 可 能 也 是 相当 弱 的 保 
护 。 如 果 可 能 的 话 , 你 应 该 考虑 限制 只 允许 特定 他 访问 ,但 如 果 你 的 他 地 址 会 不 断 变 化 ， 
那么 这 种 做 法 不 切实 际 。 如 果 你 打算 允许 任何 IP 访问 ， 那么 记 住 不 要 在 实例 上 保留 任 
何 敏 感 数据 。 














Step 6: Configure Security Group 
A security group is a set of firewall rules that control the traffic for your instance. On this page, you can add rules to allow specific traffic to reach your instance. For example, if you want to set up a web server and allow 
Internet traffic to reach your instance, add rules that allow unrestricted access to the HTTP and HTTPS ports. You can create a new security group or select from an existing one below. Learn more about Amazon EC2 security 
groups. 

Assign a security group: @Create a new security group 


Select an existing security group 
Security group name: Deep Learning AMI Ubuntu Version-1-2-AutogenByAWSMP-1 


Description: This security group was generated by AWS Marketplace and is based on recorml 





Type 1 Protocol 1 Port Range 1 Source (1 

SSH $ TCP 22 Custom $$) 0.0.0.0/0 @ 
Custom TCP Rule $ TCP 8888 Anywhere 引 0.0.0.0/0, :0 四 
Add Rule 





图 B-5 配置 一 个 新 的 安全 组 





注意 在 创建 实例 过 程 的 最 后 ， 系 统 会 询问 你 想 要 创建 新 的 连接 密 钥 还 是 重复 使 用 现 有 密 钥 。 
如 果 你 之 前 从 未 用 过 EC2 ， 那 么 就 创建 新 密 钥 并 下 载 。 


(5) 想 要 连接 到 实例 ， 需 要 在 EC2 控制 面板 上 选择 它 ， 点 击 Connect ( 连接 ) 按钮 ， 并 按照 
指示 操作 ( 见 图 B-6 )。 注 意 ， 局 动 实例 可 能 要 花 几 分 钟 的 时 间 。 如 果 一 开始 无 法 连接 ， 
请 稍 等 一 会 儿 再 尝试 。 





Connect To Your Instance X 


1would like to connect with @@Astandalone SSH client 
A Java SSH Client directly from my browser (Java required) 
To access your instance: 


1. Open an SSH client. (find out how to connect using PuTTY) 


2. Locate your private key file (awsKeys.pem). The wizard automatically detects the key you used to 
launch the instance. 


3. Your key must not be publicly viewable for SSH to work. Use this command if needed: 
chmod 400 awsKeys .pem 

4. Connect to your instance using its Public DNS: 
ec2-54-147-126-214.compute-1.amazonaws ,com 


Example: 














图 B-6 ”连接 指示 
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(6) 通过 SSH 登录 到 实例 上 之 后 ， 你 可 以 在 实例 的 根 目录 下 创建 一 个 ssl 目录 ， 然 后 ca 
打开 它 〈 并 非 强制 这 么 做 ， 但 这 人 么 做 更 清楚 )。 








S mkdir ssl 
S$ cd ssl 

(7) 使 用 OpenSSL 创建 一 个 新 的 SSL 证 书 ， 并 在 当前 ssl 目录 下 创建 cert .key 和 cert .pem 
文件 。 


$ openssl req -x509 -nodes -days 365 -newkey rsa:1024 -keyout "cert.key" -out 
"cert .pem" -batch 


配置 Jupyter 


使 用 Jupyter 之 前 ， 需 要 修改 其 默认 配置 。 具 体 步 又 如 下 。 
(1) 生成 一 个 新 的 Jupyter 配置 文件 (仍然 在 远程 实例 上 )。 


$ jupyter notebook --generate-config 


(2) (可 选 ) 可 以 为 笔记 本 生成 Jupyter 密码 。 你 的 实例 配置 可 能 允许 任何 IP 访问 ( 取决 于 
你 在 配置 安全 组 时 的 选择 )， 所 以 最 好 通过 密码 来 限制 对 Jupyter 的 访问 。 生 成 密码 的 方 
法 是 ， 打 开 一 个 IPython shell ( ipython 命令 )， 并 运行 下 列 代 码 。 


from IP ython.lib import passwd 



































passwad() 
exit 
(3) passwqd () 命令 会 要 求 你 输入 并 确认 密码 。 完 成 之 后 ， 它 会 显示 密码 的 散 列 值 。 复 制 这 








个 散 列 值 ， 你 很 快 会 用 到 它 。 散 列 值 看 起 来 像 是 这 样 的 。 

shal:b592a9cf2ec6:b99edb2fd3d0727e336185a0b0eab561aa533a43 

注意 ， 这 是 单词 password 的 散 列 值 ， 不 应 该 用 这 个 单词 作为 密码 。 
(4) 使 用 vi (或 你 最 喜欢 的 文本 编辑 需 ) 编辑 Jupyter 配置 文件 。 


S vi ~/.jupyter/jupyter_notebook config.py 


(5) 配置 文件 是 一 个 Python 文件， 所 有 内 容 都 被 注释 掉 了 。 将 下 列 Python 代码 搬入 到 文件 











开头 。 

c = get_config() < 一 获取 config 对 象 

c.NotebookApp.certfile = u'/home/ubuntu/ssl/cert.pem' < 一 生成 证 书 的 路 径 
c.NotebookApp.keyfile = u'/home/ubuntu/ssl/cert.key' 一 为 证 书生 成 的 私 钥 的 路 径 
c.IPKernelApp.pylab = 'inline' 一 使 用 Matplotlib 时 内 由 绘图 
Cc.NotebookApp.ip = '*' 一 笔记 本 的 服务 器 在 本 地 





.NotebookApp.open browser = False 


OO 





c.NotebookApp.password = 

'shal:b592a9cf2ec6:b99gedb2fd3d0727e336185a0b0eab561aa533a43， 四 之 前 生成 的 密码 
散 列 值 

默认 情况 下 ， 使 用 笔记 本 时 不 打开 浏览 器 窗口 
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注意 ”如果 你 不 习惯 用 vi， 那 么 要 记 住 ， 需 要 按 工 才能 开始 插入 内 容 。 完 成 之 后 ， 按 Esc 并 输 
入 :wad， 再 按 Enter， 就 可 以 退出 Vi 并 保存 修改 [ :wa 表示 write-quit ( 写 入 并 退出 ) ]。 


B.4 安装 Keras 


很 快 就 可 以 开始 使 用 Jupyter 了 ， 但 首先 需要 更 新 Keras。AMI 上 预 装 了 Keras， 但 未 必 是 
最 新 版 本 。 在 远程 实例 上 运行 这 个 命令 : 

$ sudo pip install keras --upgrade 

你 可 能 用 的 是 Python 3( 本 书 提供 的 笔记 本 用 的 都 是 Python 3 )， 所 以 还 应 该 使 用 pip3 更 
新 Keras。 


$ sudo pip3 install keras --upgrade 


如 果实 例 上 已 经 有 了 一 个 Keras 配置 文件 (应 该 是 没有 ， 但 在 我 写 完 本 节 之 后 ，AMI 可 能 
发 生变 化 )， 为 了 以 防 万 一 ， 应 该 删除 它 。Keras 将 在 第 一 次 启动 时 重新 创建 一 个 标准 的 配置 
文件 。 

如 果 下 列 代码 片段 返回 一 个 错误 ， 提 示 你 文件 并 不 存在 ， 那么 忽略 它 即 可 。 


S rm -f ~/.keras/keras.json 














B.5 设置 本 地 端口 转发 

在 本 地 计算 机 ( 不 是 远程 实例 ) 的 shell 中 ,将 本 地 443 端口 (HTTPS 端口 ) 转发 到 远程 
实例 的 8888 端口 。 

S sudo ssh -i awsKeys.pem -L local port:local machine:remote port remote machine 

对 我 而 言 ， 这 个 命令 如 下 所 示 。 


S sudo ssh -i awsKeys.pem -L 443:127.0.0.1:8888 ubuntu@ec2-54-147-126-214. 
compute-1.amazonaws .com 


B.6 在 本 地 浏览 器 中 使 用 Jupyter 
在 远程 实例 上 ， 将 包含 与 本 书 相 关 的 Jupyter 笔记 本 的 GitHub 仓库 克隆 下 来 。 


$s git clone https://github.com/fchollet/deep-learning-with-python-notebooks.git 
$ cd deep-learning-with-python-notebooks 


运行 下 列 命令 来 启动 Jupyter 笔记 本 ， 此 时 仍然 在 远程 实例 上 。 


$ jupyter notebook 


然后 ， 在 本 地 浏览 器 中 ， 打 开 你 转发 到 远程 笔记 本 进程 的 本 地 地 址 (https://127.0.0.1 )。 一 
定 要 在 地 址 中 使 用 HTTPS， 否 则 会 提示 SSL 错误 。 
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你 应 该 会 看 到 如 图 B-7 所 示 的 安全 警告 。 出 现 这 个 警告 是 因为 你 生成 的 SSL 证 书 没 有 经 过 
可 信任 权威 机 构 的 验证 〈 很 显然 ， 这 个 证 书 是 你 自己 生成 的 ) 点击 Advanced， 然 后 继续 





A Not Secure https://127.0.0.1 站 


A 


Your connection is not private 


Attackers might be trying to steal your information from 127.0.0.1 (for example, 
passwords, messages, or credit cards). NET:ERR_CERT_AUTHORITY_INVALID 


加 i Automatically report details of possible security incidents to Google. Privacy policy 

omen 

图 B-7 安全 警告 ， 可 以 忽略 

系统 应 该 会 提示 你 输入 Jupyter 密码 ， 然 后 你 就 可 以 进入 Jupyter 仪表 板 了 ( 见 图 B-8 )。 














二 Jupyter Logout 


Files Running Clusters 


Select items to perform actions on them. Upload Newv 2O 




















~ 人 
Notebook list empty. 
B-8 Jupyter 仪表 板 
选择 New > Notebook 开始 创建 一 个 新 笔记 本 ( 见 图 B-9 )。 你 还 可 以 选择 Python 版 本 。 一 
切 搞定 
Upload 仿 
Text File 
Folder [ 
ing 
Terminal 
Notebooks 
Python 2 
Python 3 

















图 B-9 创建 一 个 新 笔记 本 
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@ 30 多 个 代码 示例 ， 带 你 全 面 掌 握 如 何 用 深 
度 学 习 解 决 实际 问题 


@ Keras 框 架 速成 的 明智 之 选 


@ 夯实 深度 学 习 基础 ， 在 实践 中 培养 对 深度 
神经 网 络 的 良好 直觉 


@ 无 须 机 器 学 习 经 验 和 高 等 数学 背景 





本 书 由 Keras 之 父 、 现 任 Google 人 工 智能 
研究 员 的 Francois Chollet 执 笔 ， 详 尽 展 示 了 用 
Python、Keras、TensorFlow 进 行 深度 学 习 的 
探索 实践 ， 涉 及 计算 机 视觉 、 自 然 语言 处 理 、 生 
成 式 模型 等 应 用 。 在 学 习 完 本 书后 ， 读 者 将 了 解 
深度 学 习 、 机 器 学 习 和 神经 网 络 的 关键 概念 ， 具 
备 搭建 自己 的 深度 学 习 环境 、 建 立 图 像 识别 模 
型 、 生 成 图 像 和 文字 等 能 力 ， 学 会 解决 现实 世界 
中 的 深度 学 习 问 题 。 除 此 之 外 ， 本 书 还 深刻 剖析 
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